policy optimization

630 papers

Explore in graph

Also known as

GRPO POLO MAPO PO PPO

Co-occurring keywords

reinforcement learning (4122) markov decision process (788) offline reinforcement learning (492) deep reinforcement learning (903) model-based reinforcement learning (415) large language model (12755) safe reinforcement learning (119) policy learning (699) value function (294) regret bound (1918)

Papers

Spectral-Risk Safe Reinforcement Learning with Convergence Guarantees NIPS 2024

One-Shot Safety Alignment for Large Language Models via Optimal Dualization NIPS 2024

The Ladder in Chaos: Improving Policy Learning by Harnessing the Parameter Evolving Path in A Low-dimensional Space NIPS 2024

Back to Basics: Revisiting REINFORCE-Style Optimization for Learning from Human Feedback in LLMs ACL 2024

Policy Mirror Descent with Lookahead NIPS 2024

Evolutionary Reward Design and Optimization with Multimodal Large Language Models ACL 2024

TLCR: Token-Level Continuous Reward for Fine-grained Reinforcement Learning from Human Feedback ACL 2024

Near-Optimal Dynamic Regret for Adversarial Linear Mixture MDPs NIPS 2024

Worst-Case Offline Reinforcement Learning with Arbitrary Data Support NIPS 2024

Doubly Mild Generalization for Offline Reinforcement Learning NIPS 2024

Variational Delayed Policy Optimization NIPS 2024

Language Model Adaption for Reinforcement Learning with Natural Language Action Space ACL 2024

Flipping-based Policy for Chance-Constrained Markov Decision Processes NIPS 2024

The Importance of Online Data: Understanding Preference Fine-tuning via Coverage NIPS 2024

ROIDICE: Offline Return on Investment Maximization for Efficient Decision Making NIPS 2024

Diffusion-based Reinforcement Learning via Q-weighted Variational Policy Optimization NIPS 2024

Self-Modifying State Modeling for Simultaneous Machine Translation ACL 2024

Off-Agent Trust Region Policy Optimization IJCAI 2024

Generalized Linear Bandits with Limited Adaptivity NIPS 2024

Fine-Tuning Language Models with Reward Learning on Policy NAACL 2024

Agent-Pro: Learning to Evolve via Policy-Level Reflection and Optimization ACL 2024

Offline Inverse RL: New Solution Concepts and Provably Efficient Algorithms ICML 2024

Belief-State Query Policies for User-Aligned POMDPs NIPS 2024

Iteratively Refined Behavior Regularization for Offline Reinforcement Learning NIPS 2024

Constrained Latent Action Policies for Model-Based Offline Reinforcement Learning NIPS 2024