reinforcement learning

4122 papers

Explore in graph

Also known as

RLVR HARL GRPO RL PPO REINFORCE RFT DRL RL NULL LQR RLHF

Co-occurring keywords

large language model (12755) policy learning (699) markov decision process (788) policy gradient (518) policy optimization (630) deep reinforcement learning (903) multi-agent system (1743) imitation learning (741) regret bound (1918) language model (4573)

Papers

ITERATE: Image-Text Enhancement, Retrieval, and Alignment for Transmodal Evolution with LLMs COLING 2025

Enhancing Safe and Controllable Protein Generation via Knowledge Preference Optimization ACL 2025

Tunable LLM-based Proactive Recommendation Agent ACL 2025

Know You First and Be You Better: Modeling Human-Like User Simulators via Implicit Profiles ACL 2025

Positive Text Reframing under Multi-strategy Optimization COLING 2025

Beyond Demonstrations: Dynamic Vector Construction from Latent Representations EMNLP 2025

Governance in Motion: Co-evolution of Constitutions and AI models for Scalable Safety EMNLP 2025

EditGRPO: Reinforcement Learning with Post -Rollout Edits for Clinically Accurate Chest X-Ray Report Generation AACL 2025

RTADev: Intention Aligned Multi-Agent Framework for Software Development ACL 2025

InternLM-XComposer2.5-Reward: A Simple Yet Effective Multi-Modal Reward Model ACL 2025

Search Wisely: Mitigating Sub-optimal Agentic Searches By Reducing Uncertainty EMNLP 2025

Re2LLM: Reflective Reinforcement Large Language Model for Session-based Recommendation AAAI 2025

FLAG-TRADER: Fusion LLM-Agent with Gradient-based Reinforcement Learning for Financial Trading ACL 2025

SDGO: Self-Discrimination-Guided Optimization for Consistent Safety in Large Language Models EMNLP 2025

Touch2Shape: Touch-Conditioned 3D Diffusion for Shape Exploration and Reconstruction CVPR 2025

RaSS: Improving Denoising Diffusion Samplers with Reinforced Active Sampling Scheduler CVPR 2025

Optimus-2: Multimodal Minecraft Agent with Goal-Observation-Action Conditioned Policy CVPR 2025

Demystifying Multilingual Reasoning in Process Reward Modeling EMNLP 2025

Highly Imperceptible Black-Box Graph Injection Attacks with Reinforcement Learning AAAI 2025

Aligning Dialogue Agents with Global Feedback via Large Language Model Multimodal Reward Decomposition EMNLP 2025

MrGuard: A Multilingual Reasoning Guardrail for Universal LLM Safety EMNLP 2025

Parrot: A Training Pipeline Enhances Both Program CoT and Natural Language CoT for Reasoning EMNLP 2025

WebEvolver: Enhancing Web Agent Self-Improvement with Co-evolving World Model EMNLP 2025

VLP: Vision-Language Preference Learning for Embodied Manipulation EMNLP 2025

Enhancing Decision-Making for LLM Agents via Step-Level Q-Value Models AAAI 2025