policy optimization

630 papers

Explore in graph

Also known as

GRPO POLO MAPO PO PPO

Co-occurring keywords

reinforcement learning (4122) markov decision process (788) offline reinforcement learning (492) deep reinforcement learning (903) model-based reinforcement learning (415) large language model (12755) safe reinforcement learning (119) policy learning (699) value function (294) regret bound (1918)

Papers

TLCR: Token-Level Continuous Reward for Fine-grained Reinforcement Learning from Human Feedback ACL 2024

Inverse-Q*: Token Level Reinforcement Learning for Aligning Large Language Models Without Preference Data EMNLP 2024

One-Shot Safety Alignment for Large Language Models via Optimal Dualization NIPS 2024

Constrained Latent Action Policies for Model-Based Offline Reinforcement Learning NIPS 2024

A Structure-Aware Framework for Learning Device Placements on Computation Graphs NIPS 2024

Measuring Mutual Policy Divergence for Multi-Agent Sequential Exploration NIPS 2024

Iteratively Refined Behavior Regularization for Offline Reinforcement Learning NIPS 2024

SPO: Sequential Monte Carlo Policy Optimisation NIPS 2024

Worst-Case Offline Reinforcement Learning with Arbitrary Data Support NIPS 2024

Rethinking Discount Regularization: New Interpretations, Unintended Consequences, and Solutions for Regularization in Reinforcement Learning JMLR 2024

Solving Zero-Sum Markov Games with Continuous State via Spectral Dynamic Embedding NIPS 2024

Dynamic Reward Adjustment in Multi-Reward Reinforcement Learning for Counselor Reflection Generation COLING 2024

ACT: Empowering Decision Transformer with Dynamic Programming via Advantage Conditioning AAAI 2024

PPO-Clip Attains Global Optimality: Towards Deeper Understandings of Clipping AAAI 2024

Flipping-based Policy for Chance-Constrained Markov Decision Processes NIPS 2024

Learning Diverse Risk Preferences in Population-Based Self-Play AAAI 2024

Relaxed Stationary Distribution Correction Estimation for Improved Offline Policy Optimization AAAI 2024

OCEAN-MBRL: Offline Conservative Exploration for Model-Based Offline Reinforcement Learning AAAI 2024

POCE: Primal Policy Optimization with Conservative Estimation for Multi-constraint Offline Reinforcement Learning CVPR 2024

Pearl: A Production-Ready Reinforcement Learning Agent JMLR 2024

The Importance of Online Data: Understanding Preference Fine-tuning via Coverage NIPS 2024

BoNBoN Alignment for Large Language Models and the Sweetness of Best-of-n Sampling NIPS 2024

ROIDICE: Offline Return on Investment Maximization for Efficient Decision Making NIPS 2024

Relative Policy-Transition Optimization for Fast Policy Transfer AAAI 2024

Spectral-Risk Safe Reinforcement Learning with Convergence Guarantees NIPS 2024