policy optimization

630 papers

Explore in graph

Also known as

GRPO POLO MAPO PO PPO

Co-occurring keywords

reinforcement learning (4122) markov decision process (788) offline reinforcement learning (492) deep reinforcement learning (903) model-based reinforcement learning (415) large language model (12755) safe reinforcement learning (119) policy learning (699) value function (294) regret bound (1918)

Papers

State Regularized Policy Optimization on Data with Dynamics Shift NIPS 2023

Heuristic Search for Multi-Objective Probabilistic Planning AAAI 2023

Multi-Modal Inverse Constrained Reinforcement Learning from a Mixture of Demonstrations NIPS 2023

How to Fine-tune the Model: Unified Model Shift and Model Bias Policy Optimization NIPS 2023

Learning Adversarial Low-rank Markov Decision Processes with Unknown Transition and Full-information Feedback NIPS 2023

Counterfactual Learning with General Data-Generating Policies AAAI 2023

Reduced Policy Optimization for Continuous Control with Hard Constraints NIPS 2023

Provably Efficient Offline Reinforcement Learning in Regular Decision Processes NIPS 2023

On Controller Reduction in Linear Quadratic Gaussian Control with Performance Bounds L4DC 2023

On Dynamic Programming Decompositions of Static Risk Measures in Markov Decision Processes NIPS 2023

Aligning Large Language Models through Synthetic Feedback EMNLP 2023

Bi-Level Offline Policy Optimization with Limited Exploration NIPS 2023

Batch size-invariance for policy optimization NIPS 2022

Policy Optimization with Advantage Regularization for Long-Term Fairness in Decision Systems NIPS 2022

The Phenomenon of Policy Churn NIPS 2022

Near-Optimal Sample Complexity Bounds for Constrained MDPs NIPS 2022

Off-Policy Evaluation with Policy-Dependent Optimization Response NIPS 2022

Sample-Efficient Iterative Lower Bound Optimization of Deep Reactive Policies for Planning in Continuous MDPs AAAI 2022

Greedification Operators for Policy Optimization: Investigating Forward and Reverse KL Divergences JMLR 2022

Influencing Long-Term Behavior in Multiagent Reinforcement Learning NIPS 2022

LAPO: Latent-Variable Advantage-Weighted Policy Optimization for Offline Reinforcement Learning NIPS 2022

Socially-Attentive Policy Optimization in Multi-Agent Self-Driving System CORL 2022

Mirror Learning: A Unifying Framework of Policy Optimisation ICML 2022

The Primacy Bias in Deep Reinforcement Learning ICML 2022

Robust Deep Reinforcement Learning through Bootstrapped Opportunistic Curriculum ICML 2022