reinforcement learning

4122 papers

Explore in graph

Also known as

RLVR HARL GRPO RL PPO REINFORCE RFT DRL RL NULL LQR RLHF

Co-occurring keywords

large language model (12755) policy learning (699) markov decision process (788) policy gradient (518) policy optimization (630) deep reinforcement learning (903) multi-agent system (1743) imitation learning (741) regret bound (1918) language model (4573)

Papers

Parrot: A Training Pipeline Enhances Both Program CoT and Natural Language CoT for Reasoning EMNLP 2025

IntentionFrame: A Semi-Structured, Multi-Aspect Framework for Fine-Grained Conversational Intention Understanding EMNLP 2025

Do LLMs Need Inherent Reasoning Before Reinforcement Learning? A Study in Korean Self-Correction AACL 2025

DiaLLMs: EHR-Enhanced Clinical Conversational System for Clinical Test Recommendation and Diagnosis Prediction ACL 2025

Online Learning Defense against Iterative Jailbreak Attacks via Prompt Optimization AACL 2025

Token-level Proximal Policy Optimization for Query Generation EMNLP 2025

STACKFEED: Structured Textual Actor-Critic Knowledge base editing with FEEDback EMNLP 2025

RAVEN++: Pinpointing Fine-Grained Violations in Advertisement Videos with Active Reinforcement Reasoning EMNLP 2025

Auto-Weighted Group Relative Preference Optimization for Multi-Objective Text Generation Tasks EMNLP 2025

DecEx-RAG: Boosting Agentic Retrieval-Augmented Generation with Decision and Execution Optimization via Process Supervision EMNLP 2025

Atoxia: Red-teaming Large Language Models with Target Toxic Answers NAACL 2025

Continuously evolving rewards in an open-ended environment JMLR 2025

Training Language Models to Critique With Multi-agent Feedback EMNLP 2025

Encouraging Good Processes Without the Need for Good Answers: Reinforcement Learning for LLM Agent Planning EMNLP 2025

Statistical field theory for Markov decision processes under uncertainty JMLR 2025

Flexible Thinking for Multimodal Emotional Support Conversation via Reinforcement Learning EMNLP 2025

Legal Mathematical Reasoning with LLMs: Procedural Alignment through Two-Stage Reinforcement Learning EMNLP 2025

AdaptThink: Reasoning Models Can Learn When to Think EMNLP 2025

GeoPQA: Bridging the Visual Perception Gap in MLLMs for Geometric Reasoning EMNLP 2025

LegalSim: Multi-Agent Simulation of Legal Systems for Discovering Procedural Exploits EMNLP 2025

Bandit Based Attention Mechanism in Vision Transformers WACV 2025

Score-Aware Policy-Gradient and Performance Guarantees using Local Lyapunov Stability JMLR 2025

PUER: Boosting Few-shot Positive-Unlabeled Entity Resolution with Reinforcement Learning EMNLP 2025

Thinking with DistilQwen: A Tale of Four Distilled Reasoning and Reward Model Series EMNLP 2025

Speaking at the Right Level: Literacy-Controlled Counterspeech Generation with RAG-RL EMNLP 2025