policy gradient

518 papers

Explore in graph

Also known as

SPG A3C CPGA DPG VPG PG

Co-occurring keywords

reinforcement learning (4122) variance reduction (520) deep reinforcement learning (903) continuous control (246) sample efficiency (469) markov decision process (788) policy optimization (630) sample complexity (1158) off-policy learning (227) multi-agent reinforcement learning (534)

Papers

Recurrent Neural Network Controllers Synthesis with Stability Guarantees for Partially Observed Systems AAAI 2022

Minimax Optimal Online Imitation Learning via Replay Estimation NIPS 2022

Policy Gradient and Actor-Critic Learning in Continuous Time and Space: Theory and Algorithms JMLR 2022

Towards an Understanding of Default Policies in Multitask Policy Optimization AISTATS 2022

A general class of surrogate functions for stable and efficient reinforcement learning AISTATS 2022

An Alternate Policy Gradient Estimator for Softmax Policies AISTATS 2022

Model-free Policy Learning with Reward Gradients AISTATS 2022

On the Global Optimum Convergence of Momentum-based Policy Gradient AISTATS 2022

Policy Learning and Evaluation with Randomized Quasi-Monte Carlo AISTATS 2022

Efficient Unsupervised Sentence Compression by Fine-tuning Transformers with Reinforcement Learning ACL 2022

Trust Region Policy Optimization with Optimal Transport Discrepancies: Duality and Algorithm for Continuous Actions NIPS 2022

On the Convergence Rates of Policy Gradient Methods JMLR 2022

Sample-based Distributional Policy Gradient L4DC 2022

Safe Reinforcement Learning with Chance-constrained Model Predictive Control L4DC 2022

Policy Optimization with Stochastic Mirror Descent AAAI 2022

Reinforcement Learning for Datacenter Congestion Control AAAI 2022

Transcribing Natural Languages for the Deaf via Neural Editing Programs AAAI 2022

Unsupervised Reinforcement Learning in Multiple Environments AAAI 2022

Stackelberg Actor-Critic: Game-Theoretic Reinforcement Learning Algorithms AAAI 2022

Episodic Policy Gradient Training AAAI 2022

MDPGT: Momentum-Based Decentralized Policy Gradient Tracking AAAI 2022

DECORE: Deep Compression With Reinforcement Learning CVPR 2022

Accelerating Model-Free Policy Optimization Using Model-Based Gradient: A Composite Optimization Perspective L4DC 2022

Plan Your Target and Learn Your Skills: Transferable State-Only Imitation Learning via Decoupled Policy Optimization ICML 2022

Theoretical Guarantees of Fictitious Discount Algorithms for Episodic Reinforcement Learning and Global Convergence of Policy Gradient Methods AAAI 2022