policy optimization

630 papers

Explore in graph

Also known as

GRPO POLO MAPO PO PPO

Co-occurring keywords

reinforcement learning (4122) markov decision process (788) offline reinforcement learning (492) deep reinforcement learning (903) model-based reinforcement learning (415) large language model (12755) safe reinforcement learning (119) policy learning (699) value function (294) regret bound (1918)

Papers

DGPO: Discovering Multiple Strategies with Diversity-Guided Policy Optimization AAAI 2024

Iteratively Refined Behavior Regularization for Offline Reinforcement Learning NIPS 2024

Flipping-based Policy for Chance-Constrained Markov Decision Processes NIPS 2024

Coevolving with the Other You: Fine-Tuning LLM with Sequential Cooperative Multi-Agent Reinforcement Learning NIPS 2024

Policy-shaped prediction: avoiding distractions in model-based reinforcement learning NIPS 2024

Improving Deep Reinforcement Learning by Reducing the Chain Effect of Value and Policy Churn NIPS 2024

Near-Optimal Policy Optimization for Correlated Equilibrium in General-Sum Markov Games AISTATS 2024

Bootstrapped Policy Learning for Task-oriented Dialogue through Goal Shaping EMNLP 2024

The Importance of Online Data: Understanding Preference Fine-tuning via Coverage NIPS 2024

Robust Offline Reinforcement Learning with Heavy-Tailed Rewards AISTATS 2024

A General Theoretical Paradigm to Understand Learning from Human Preferences AISTATS 2024

Unveiling the Significance of Toddler-Inspired Reward Transition in Goal-Oriented Reinforcement Learning AAAI 2024

Resilient Constrained Reinforcement Learning AISTATS 2024

POCE: Primal Policy Optimization with Conservative Estimation for Multi-constraint Offline Reinforcement Learning CVPR 2024

ROIDICE: Offline Return on Investment Maximization for Efficient Decision Making NIPS 2024

Constrained Latent Action Policies for Model-Based Offline Reinforcement Learning NIPS 2024

Fast two-time-scale stochastic gradient method with applications in reinforcement learning COLT 2024

Towards Achieving Sub-linear Regret and Hard Constraint Violation in Model-free RL AISTATS 2024

Graph Diffusion Policy Optimization NIPS 2024

StablePrompt : Automatic Prompt Tuning using Reinforcement Learning for Large Language Model EMNLP 2024

OmniSafe: An Infrastructure for Accelerating Safe Reinforcement Learning Research JMLR 2024

Warm-up Free Policy Optimization: Improved Regret in Linear Markov Decision Processes NIPS 2024

Learning to Retrieve Iteratively for In-Context Learning EMNLP 2024

Constrained Intrinsic Motivation for Reinforcement Learning IJCAI 2024

ENOTO: Improving Offline-to-Online Reinforcement Learning with Q-Ensembles IJCAI 2024