policy optimization

630 papers

Explore in graph

Also known as

GRPO POLO MAPO PO PPO

Co-occurring keywords

reinforcement learning (4122) markov decision process (788) offline reinforcement learning (492) deep reinforcement learning (903) model-based reinforcement learning (415) large language model (12755) safe reinforcement learning (119) policy learning (699) value function (294) regret bound (1918)

Papers

Teaching Text Agents to Learn Sequential Decision Making from Failure ACL 2025

TAROT: Task-Oriented Authorship Obfuscation Using Policy Optimization Methods NAACL 2025

Enhancing Online Reinforcement Learning with Meta-Learned Objective from Offline Data AAAI 2025

Ignore the KL Penalty! Boosting Exploration on Critical Tokens to Enhance RL Fine-Tuning NAACL 2025

Black-Box Optimization with Implicit Constraints for Public Policy AAAI 2025

RAISE: Reinforced Adaptive Instruction Selection For Large Language Models EMNLP 2025

Gradient-Adaptive Policy Optimization: Towards Multi-Objective Alignment of Large Language Models ACL 2025

EQA-RM: A Generative Embodied Reward Model with Test-time Scaling EMNLP 2025

Dynamic Retriever for In-Context Knowledge Editing via Policy Optimization EMNLP 2025

Henry at BEA 2025 Shared Task: Improving AI Tutor’s Guidance Evaluation Through Context-Aware Distillation ACL 2025

RLHF Algorithms Ranked: An Extensive Evaluation Across Diverse Tasks, Rewards, and Hyperparameters EMNLP 2025

GARLIC: GPT-Augmented Reinforcement Learning with Intelligent Control for Vehicle Dispatching AAAI 2025

Offline Multi-Agent Reinforcement Learning via In-Sample Sequential Policy Optimization AAAI 2025

HeMoRa: Unsupervised Heuristic Consensus Sampling for Robust Point Cloud Registration CVPR 2025

When to Continue Thinking: Adaptive Thinking Mode Switching for Efficient Reasoning EMNLP 2025

Towards A Better Initial Policy Model For Scalable Long-CoT Reinforcement Learning ACL 2025

CoTD-PO: Chain-of-Thought Distillation with Preference Optimization EMNLP 2025

EMO-RL: Emotion-Rule-Based Reinforcement Learning Enhanced Audio-Language Model for Generalized Speech Emotion Recognition EMNLP 2025

Exploration-Driven Reinforcement Learning for Expert Routing Improvement in Mixture-of-Experts Language Models EMNLP 2025

DecEx-RAG: Boosting Agentic Retrieval-Augmented Generation with Decision and Execution Optimization via Process Supervision EMNLP 2025

Self-Training Large Language Models with Confident Reasoning EMNLP 2025

CPO: Addressing Reward Ambiguity in Role-playing Dialogue via Comparative Policy Optimization EMNLP 2025

RAVEN: Robust Advertisement Video Violation Temporal Grounding via Reinforcement Reasoning ACL 2025

MAPoRL: Multi-Agent Post-Co-Training for Collaborative Large Language Models with Reinforcement Learning ACL 2025

Frictional Agent Alignment Framework: Slow Down and Don’t Break Things ACL 2025