policy optimization

630 papers

Explore in graph

Also known as

GRPO POLO MAPO PO PPO

Co-occurring keywords

reinforcement learning (4122) markov decision process (788) offline reinforcement learning (492) deep reinforcement learning (903) model-based reinforcement learning (415) large language model (12755) safe reinforcement learning (119) policy learning (699) value function (294) regret bound (1918)

Papers

State Proficiency-Based Adaptive Fine-Tuning for Offline-to-Online Reinforcement Learning AAAI 2026

POLICYGRID: Causal Discovery for Adaptive Policy Optimization in Embodied Agents (Student Abstract) AAAI 2026

GEM: Generative Entropy-Guided Preference Modeling for Few-Shot Alignment of LLMs AAAI 2026

Beyond ReAct: A Planner-Centric Framework for Complex Tool-Augmented LLM Reasoning AAAI 2026

Conformal Constrained Policy Optimization for Cost-Effective LLM Agents AAAI 2026

SALT: Step-level Advantage Assignment for Long-horizon Agents via Trajectory Graph EACL 2026

IRPO: Implicit Policy Regularized Preference Optimization EACL 2026

RMLer: Synthesizing Novel Objects Across Diverse Categories via Reinforcement Mixing Learning AAAI 2026

Start Small, Think Big: Curriculum-based Relative Policy Optimization for Visual Grounding AAAI 2026

ReFLAIR: Enhancing Multimodal Reasoning via Structured Reflection and Reward-Guided Learning EMNLP 2025

SciCompanion: Graph-Grounded Reasoning for Structured Evaluation of Scientific Arguments EMNLP 2025

EQA-RM: A Generative Embodied Reward Model with Test-time Scaling EMNLP 2025

CoTD-PO: Chain-of-Thought Distillation with Preference Optimization EMNLP 2025

EMO-RL: Emotion-Rule-Based Reinforcement Learning Enhanced Audio-Language Model for Generalized Speech Emotion Recognition EMNLP 2025

Exploration-Driven Reinforcement Learning for Expert Routing Improvement in Mixture-of-Experts Language Models EMNLP 2025

RLHF Algorithms Ranked: An Extensive Evaluation Across Diverse Tasks, Rewards, and Hyperparameters EMNLP 2025

DecEx-RAG: Boosting Agentic Retrieval-Augmented Generation with Decision and Execution Optimization via Process Supervision EMNLP 2025

Self-Training Large Language Models with Confident Reasoning EMNLP 2025

CPO: Addressing Reward Ambiguity in Role-playing Dialogue via Comparative Policy Optimization EMNLP 2025

RAVEN: Robust Advertisement Video Violation Temporal Grounding via Reinforcement Reasoning ACL 2025

OpenWebVoyager: Building Multimodal Web Agents via Iterative Real-World Exploration, Feedback and Optimization ACL 2025

Simple Policy Optimization ICML 2025

MDCure: A Scalable Pipeline for Multi-Document Instruction-Following ACL 2025

MAPoRL: Multi-Agent Post-Co-Training for Collaborative Large Language Models with Reinforcement Learning ACL 2025

Frictional Agent Alignment Framework: Slow Down and Don’t Break Things ACL 2025