policy optimization

630 papers

Explore in graph

Also known as

GRPO POLO MAPO PO PPO

Co-occurring keywords

reinforcement learning (4122) markov decision process (788) offline reinforcement learning (492) deep reinforcement learning (903) model-based reinforcement learning (415) large language model (12755) safe reinforcement learning (119) policy learning (699) value function (294) regret bound (1918)

Papers

Specializing Versatile Skill Libraries using Local Mixture of Experts CORL 2021

Action redundancy in reinforcement learning UAI 2021

Non-Stationary Off-Policy Optimization AISTATS 2021

Provably Efficient Safe Exploration via Primal-Dual Policy Optimization AISTATS 2021

Scaling Multi-Agent Reinforcement Learning with Selective Parameter Sharing ICML 2021

Monotonic Robust Policy Optimization with Model Discrepancy ICML 2021

A Policy Gradient Algorithm for Learning to Learn in Multiagent Reinforcement Learning ICML 2021

Multi-Agent Training beyond Zero-Sum with Correlated Equilibrium Meta-Solvers ICML 2021

Shortest-Path Constrained Reinforcement Learning for Sparse Reward Tasks ICML 2021

Interaction-Grounded Learning ICML 2021

Reward-Constrained Behavior Cloning IJCAI 2021

Learning from eXtreme Bandit Feedback AAAI 2021

Constrained Risk-Averse Markov Decision Processes AAAI 2021

Near-Optimal Offline Reinforcement Learning via Double Variance Reduction NIPS 2021

Provable Benefits of Actor-Critic Methods for Offline Reinforcement Learning NIPS 2021

Nearly Horizon-Free Offline Reinforcement Learning NIPS 2021

Generalizable Imitation Learning from Observation via Inferring Goal Proximity NIPS 2021

Explicable Reward Design for Reinforcement Learning Agents NIPS 2021

Safe Policy Optimization with Local Generalized Linear Function Approximations NIPS 2021

Policy Optimization in Adversarial MDPs: Improved Exploration via Dilated Bonuses NIPS 2021

Active Offline Policy Selection NIPS 2021

Policy Finetuning: Bridging Sample-Efficient Offline and Online Reinforcement Learning NIPS 2021

Understanding the Effect of Stochasticity in Policy Optimization NIPS 2021

Wasserstein Flow Meets Replicator Dynamics: A Mean-Field Analysis of Representation Learning in Actor-Critic NIPS 2021

Progression Heuristics for Planning with Probabilistic LTL Constraints AAAI 2021