conftrace_

reinforcement learning

4352 papers

Explore in graph

Also known as

RL REINFORCE

Co-occurring keywords

large language model (13587) policy learning (702) markov decision process (790) policy optimization (657) policy gradient (520) deep reinforcement learning (903) multi-agent system (1819) imitation learning (744) regret bound (1926) language model (4599)

Papers

Enhancing Reinforcement Learning for Radiology Report Generation with Evidence-aware Rewards and Self-correcting Preference Learning ACL 2026

TA-GRPO-d: Trajectory-Aware GRPO for Optimizing Denoising Trajectories in Diffusion LLMs ACL 2026

CSRP: Chain-of-Thought Reasoning for Chinese Text Correction via Reinforcement Learning with Efficiency-Aware Rewards ACL 2026

R3: End-to-End Reasoning-based Planning for Multi-step Retrosynthesis via Reinforcement Learning ACL 2026

NaviMaster: Learning a Unified Policy for GUI and Embodied Navigation Tasks ACL 2026

Teaching LLMs Human-Like Editing of Inappropriate Argumentation via Reinforcement Learning ACL 2026

SPARKLE: A Structured and Plug-and-play Agentic Retrieval Policy for Adaptive RAG Models ACL 2026

ImpRIF: Stronger Implicit Reasoning Leads to Better Complex Instruction Following ACL 2026

One Refiner to Unlock Them All: Inference-Time Reasoning Elicitation via Reinforcement Query Refinement ACL 2026

Why Does Reinforcement Learning Generalize? A Feature-Level Mechanistic Study of Post-Training in Large Language Models ACL 2026

KnowRL: Exploring Knowledgeable Reinforcement Learning for Factuality ACL 2026

AttnPO: Attention-Guided Process Supervision for Efficient Reasoning ACL 2026

MASPO: Unifying Gradient Utilization, Probability Mass, and Signal Reliability for Robust and Sample-Efficient LLM Reasoning ACL 2026

From log 𝜋 to 𝜋: Taming Divergence in Soft Clipping via Bilateral Decoupled Decay of Probability Gradient Weight ACL 2026

Sparse-RL: Breaking the Memory Wall in LLM Reinforcement Learning via Stable Sparse Rollouts ACL 2026

Understanding the Behaviors of Environment-aware Information Retrieval ACL 2026

ReCode: Reinforcing Code Generation with Reasoning-Process Rewards ACL 2026

ReTRE: Benchmarking LLM Transfer Robustness with Structure-Preserving Variants ACL 2026

TInR: Exploring Tool-Internalized Reasoning in Large Language Models ACL 2026

Learning How and What to Memorize: Cognition-Inspired Two-Stage Optimization for Evolving Memory ACL 2026

RV-HATE: Reinforced Multi-Module Voting for Implicit Hate Speech Detection ACL 2026

EconProver: Towards More Economical Test-Time Scaling for Automated Theorem Proving ACL 2026

Doc-V*: Coarse-to-Fine Interactive Visual Reasoning for Multi-Page Document VQA ACL 2026

Privacy-R1: Privacy-Aware Multi-LLM Agent Collaboration via Reinforcement Learning ACL 2026

The olmOCR Project: Building Fully Open OCR using VLMs ACL 2026