reinforcement learning

4122 papers

Explore in graph

Also known as

RLVR HARL GRPO RL PPO REINFORCE RFT DRL RL NULL LQR RLHF

Co-occurring keywords

large language model (12755) policy learning (699) markov decision process (788) policy gradient (518) policy optimization (630) deep reinforcement learning (903) multi-agent system (1743) imitation learning (741) regret bound (1918) language model (4573)

Papers

Dynamic Retriever for In-Context Knowledge Editing via Policy Optimization EMNLP 2025

StoryLLaVA: Enhancing Visual Storytelling with Multi-Modal Large Language Models COLING 2025

ITERATE: Image-Text Enhancement, Retrieval, and Alignment for Transmodal Evolution with LLMs COLING 2025

When Personalization Meets Reality: A Multi-Faceted Analysis of Personalized Preference Learning EMNLP 2025

Process-Supervised Reinforcement Learning for Code Generation EMNLP 2025

Teaching Language Models To Gather Information Proactively EMNLP 2025

Aligning Sentence Simplification with ESL Learner’s Proficiency for Language Acquisition NAACL 2025

Legal Mathematical Reasoning with LLMs: Procedural Alignment through Two-Stage Reinforcement Learning EMNLP 2025

Reinforced Query Reasoners for Reasoning-intensive Retrieval Tasks EMNLP 2025

Unilaw-R1: A Large Language Model for Legal Reasoning with Reinforcement Learning and Iterative Inference EMNLP 2025

UniGraspTransformer: Simplified Policy Distillation for Scalable Dexterous Robotic Grasping CVPR 2025

Chatbot To Help Patients Understand Their Health EMNLP 2025

FastCuRL: Curriculum Reinforcement Learning with Stage-wise Context Scaling for Efficient Training R1-like Reasoning Models EMNLP 2025

Gazing at Rewards: Eye Movements as a Lens into Human and AI Decision-Making in Hybrid Visual Foraging CVPR 2025

Revisiting Fairness in Multitask Learning: A Performance-Driven Approach for Variance Reduction CVPR 2025

SkillMimic: Learning Basketball Interaction Skills from Demonstrations CVPR 2025

CarPlanner: Consistent Auto-regressive Trajectory Planning for Large-Scale Reinforcement Learning in Autonomous Driving CVPR 2025

Critic-V: VLM Critics Help Catch VLM Errors in Multimodal Reasoning CVPR 2025

Style Transfer with Multi-iteration Preference Optimization NAACL 2025

RL-RC-DoT: A Block-level RL agent for Task-Aware Video Compression CVPR 2025

Revisiting Early Detection of Sexual Predators via Turn-level Optimization NAACL 2025

NAT: Enhancing Agent Tuning with Negative Samples NAACL 2025

LoRA-PAR: A Flexible Dual-System LoRA Partitioning Approach to Efficient LLM Fine-Tuning EMNLP 2025

Search Wisely: Mitigating Sub-optimal Agentic Searches By Reducing Uncertainty EMNLP 2025

Enhancing Efficiency and Exploration in Reinforcement Learning for LLMs EMNLP 2025