policy optimization

630 papers

Explore in graph

Also known as

GRPO POLO MAPO PO PPO

Co-occurring keywords

reinforcement learning (4122) markov decision process (788) offline reinforcement learning (492) deep reinforcement learning (903) model-based reinforcement learning (415) large language model (12755) safe reinforcement learning (119) policy learning (699) value function (294) regret bound (1918)

Papers

Exploration-Driven Reinforcement Learning for Expert Routing Improvement in Mixture-of-Experts Language Models EMNLP 2025

ReFLAIR: Enhancing Multimodal Reasoning via Structured Reflection and Reward-Guided Learning EMNLP 2025

EQA-RM: A Generative Embodied Reward Model with Test-time Scaling EMNLP 2025

Frictional Agent Alignment Framework: Slow Down and Don’t Break Things ACL 2025

Learning with Linear Function Approximations in Mean-Field Control JMLR 2025

Enhancing Online Reinforcement Learning with Meta-Learned Objective from Offline Data AAAI 2025

Gradient-Adaptive Policy Optimization: Towards Multi-Objective Alignment of Large Language Models ACL 2025

EPO: Explicit Policy Optimization for Strategic Reasoning in LLMs via Reinforcement Learning ACL 2025

GARLIC: GPT-Augmented Reinforcement Learning with Intelligent Control for Vehicle Dispatching AAAI 2025

EditGRPO: Reinforcement Learning with Post -Rollout Edits for Clinically Accurate Chest X-Ray Report Generation AACL 2025

LLMSR@XLLM25: A Language Model-Based Pipeline for Structured Reasoning Data Construction ACL 2025

MAPoRL: Multi-Agent Post-Co-Training for Collaborative Large Language Models with Reinforcement Learning ACL 2025

MDCure: A Scalable Pipeline for Multi-Document Instruction-Following ACL 2025

RAVEN: Robust Advertisement Video Violation Temporal Grounding via Reinforcement Reasoning ACL 2025

Self-Training Large Language Models with Confident Reasoning EMNLP 2025

SeqPO-SiMT: Sequential Policy Optimization for Simultaneous Machine Translation ACL 2025

Visualising Policy-Reward Interplay to Inform Zeroth-Order Preference Optimisation of Large Language Models ACL 2025

Rethinking Reward Model Evaluation Through the Lens of Reward Overoptimization ACL 2025

Leveraging Constraint Violation Signals for Action Constrained Reinforcement Learning AAAI 2025

Entropy-Adaptive Diffusion Policy Optimization with Dynamic Step Alignment ICCV 2025

Constraint-Adaptive Policy Switching for Offline Safe Reinforcement Learning AAAI 2025

OpenWebVoyager: Building Multimodal Web Agents via Iterative Real-World Exploration, Feedback and Optimization ACL 2025

DecEx-RAG: Boosting Agentic Retrieval-Augmented Generation with Decision and Execution Optimization via Process Supervision EMNLP 2025

Acting Beyond Learning: Imagination-Assisted Decision-Making in the Visual-based Multi-Agent Cooperative Scenarios AAAI 2025

REBEL: Reinforcement Learning via Regressing Relative Rewards NIPS 2024