policy optimization

630 papers

Explore in graph

Also known as

GRPO POLO MAPO PO PPO

Co-occurring keywords

reinforcement learning (4122) markov decision process (788) offline reinforcement learning (492) deep reinforcement learning (903) model-based reinforcement learning (415) large language model (12755) safe reinforcement learning (119) policy learning (699) value function (294) regret bound (1918)

Papers

AVAST: Attentive Variational State Tracker in a Reinforced Navigator IJCNLP 2022

Near-optimal Policy Optimization Algorithms for Learning Adversarial Linear Mixture MDPs AISTATS 2022

Beyond the Policy Gradient Theorem for Efficient Policy Updates in Actor-Critic Algorithms AISTATS 2022

Interaction-Grounded Learning with Action-Inclusive Feedback NIPS 2022

Sample-Efficient Reinforcement Learning via Conservative Model-Based Actor-Critic AAAI 2022

Conjugated Discrete Distributions for Distributional Reinforcement Learning AAAI 2022

Policy Optimization with Stochastic Mirror Descent AAAI 2022

Constraints Penalized Q-learning for Safe Offline Reinforcement Learning AAAI 2022

Learning Adversarial Markov Decision Processes with Delayed Feedback AAAI 2022

Constrained Prescriptive Trees via Column Generation AAAI 2022

Conservative Dual Policy Optimization for Efficient Model-Based Reinforcement Learning NIPS 2022

On the Sample Complexity of Stability Constrained Imitation Learning L4DC 2022

Policy Optimization for Stochastic Shortest Path COLT 2022

Efficient Adversarial Training without Attacking: Worst-Case-Aware Robust Reinforcement Learning NIPS 2022

On Pathologies in KL-Regularized Reinforcement Learning from Expert Demonstrations NIPS 2021

Polyjuice: High-Performance Transactions via Learned Concurrency Control OSDI 2021

Variational Model-based Policy Optimization IJCAI 2021

Average-Reward Reinforcement Learning with Trust Region Methods IJCAI 2021

Robust Adversarial Imitation Learning via Adaptively-Selected Demonstrations IJCAI 2021

Independence-aware Advantage Estimation IJCAI 2021

Model-based Multi-agent Policy Optimization with Adaptive Opponent-wise Rollouts IJCAI 2021

Boosting Offline Reinforcement Learning with Residual Generative Modeling IJCAI 2021

Policy Learning with Constraints in Model-free Reinforcement Learning: A Survey IJCAI 2021

The benefits of sharing: a cloud-aided performance-driven framework to learn optimal feedback policies L4DC 2021

Beyond Variance Reduction: Understanding the True Impact of Baselines on Policy Optimization ICML 2021