policy gradient

518 papers

Explore in graph

Also known as

SPG A3C CPGA DPG VPG PG

Co-occurring keywords

reinforcement learning (4122) variance reduction (520) deep reinforcement learning (903) continuous control (246) sample efficiency (469) markov decision process (788) policy optimization (630) sample complexity (1158) off-policy learning (227) multi-agent reinforcement learning (534)

Papers

SPPD: Self-training with Process Preference Learning Using Dynamic Value Margin EMNLP 2025

KIPPO: Koopman-Inspired Proximal Policy Optimization IJCAI 2025

“Yes, My LoRD.” Guiding Language Model Extraction with Locality Reinforced Distillation ACL 2025

Simple Policy Optimization ICML 2025

FLAG-TRADER: Fusion LLM-Agent with Gradient-based Reinforcement Learning for Financial Trading ACL 2025

Maximum Entropy Softmax Policy Gradient via Entropy Advantage Estimation IJCAI 2025

AdaDiff: Adaptive Step Selection for Fast Diffusion Models AAAI 2025

Privacy-Constrained Policies via Mutual Information Regularized Policy Gradients AISTATS 2024

Learning Extensive-Form Perfect Equilibria in Two-Player Zero-Sum Sequential Games AISTATS 2024

Information-Theoretic Opacity-Enforcement in Markov Decision Processes IJCAI 2024

Solving General Noisy Inverse Problem via Posterior Sampling: A Policy Gradient Viewpoint AISTATS 2024

Policy Gradient Methods in the Presence of Symmetries and State Abstractions JMLR 2024

Vertical Symbolic Regression via Deep Policy Gradient IJCAI 2024

Enhancing Policy Gradient Algorithms with Search in Imperfect Information Games IJCAI 2024

Robust Black-Box Optimization for Stochastic Search and Episodic Reinforcement Learning JMLR 2024

Off-Policy Action Anticipation in Multi-Agent Reinforcement Learning JMLR 2024

Learning Equilibria in Adversarial Team Markov Games: A Nonconvex-Hidden-Concave Min-Max Optimization Problem NIPS 2024

TAPE: Leveraging Agent Topology for Cooperative Multi-Agent Policy Gradient AAAI 2024

Solving Zero-Sum Markov Games with Continuous State via Spectral Dynamic Embedding NIPS 2024

Sample Complexity of Neural Policy Mirror Descent for Policy Optimization on Low-Dimensional Manifolds JMLR 2024

AMAGO-2: Breaking the Multi-Task Barrier in Meta-Reinforcement Learning with Transformers NIPS 2024

Adaptive Labeling for Efficient Out-of-distribution Model Evaluation NIPS 2024

A large deviations perspective on policy gradient algorithms L4DC 2024

Learning Multimodal Behaviors from Scratch with Diffusion Policy Gradient NIPS 2024

Robust Reinforcement Learning with General Utility NIPS 2024