conftrace_

reinforcement learning

4352 papers

Explore in graph

Also known as

RL REINFORCE

Co-occurring keywords

large language model (13587) policy learning (702) markov decision process (790) policy optimization (657) policy gradient (520) deep reinforcement learning (903) multi-agent system (1819) imitation learning (744) regret bound (1926) language model (4599)

Papers

SEARL: Joint Optimization of Policy and Tool Graph Memory for Self-Evolving Agents ACL 2026

AgentGL: Towards Agentic Graph Learning with LLMs via Reinforcement Learning ACL 2026

CSPO: Alleviating Reward Ambiguity for Structured Table-to-LaTeX Generation ACL 2026

Temp-R1: A Unified Autonomous Agent for Complex Temporal KGQA via Reverse Curriculum Reinforcement Learning ACL 2026

TransLLM: A Unified Multi-Task Large Language Model for Urban Transportation via Learnable Prompting ACL 2026

Trust Within? Seek Beyond? Knowledge Boundary Aware Policy Optimization for Agentic Search ACL 2026

MemBuilder: Reinforcing LLMs for Long-Term Memory Construction via Attributed Dense Rewards ACL 2026

Cultivating Forensic Reasoning for Generalizable Multimodal Manipulation Detection ACL 2026

Selective Test-Time Debiasing for CLIP via Reward Gating ACL 2026

CoVerRL: Breaking the Consensus Trap in Label-Free Reasoning via Generator-Verifier Co-Evolution ACL 2026

From Language to Driving: A Dual-Loop SLM-Enhanced Framework for Multi-Planner Scheduling via a Domain-Specific Language ACL 2026

Translation with Thought: Difficulty-Adaptive Reasoning via Reinforcement Learning for Multi-Domain Machine Translation ACL 2026

Optimizing RAG Rerankers with LLM Feedback via Reinforcement Learning ACL 2026

WIST: Web-Grounded Iterative Self-Play Tree for Domain-Targeted Reasoning Improvement ACL 2026

Enhancing LLM-based Search Agents via Contribution Weighted Group Relative Policy Optimization ACL 2026

The Retrieval Bottleneck: Scaling Laws for Reinforcement Learning in RAG ACL 2026

SeCuRepair: Semantics-Aligned, Curriculum-Driven, and Reasoning-Enhanced Vulnerability Repair Framework ACL 2026

Behavior Knowledge Merge in Reinforced Agentic Models ACL 2026

Leveraging Outline-Optimized Generative Interactions and Critique for Self-Refining Outlines with Reinforcement Learning ACL 2026

Tailored Primitive Initialization is the Secret Key to Reinforcement Learning ACL 2026

MARS2: Scaling Multi-Agent Tree Search via Reinforcement Learning for Code Generation ACL 2026

TPS-Bench: Evaluating AI Agents’ Tool Planning & Scheduling Abilities in Compounding Tasks ACL 2026

Reinforcement Learning–Guided Adaptive Tuning for Out-of-Distribution Harmful Text Detection ACL 2026

MUSEG: Reinforcing Video Temporal Understanding via Timestamp-Aware Multi-Segment Grounding ACL 2026

VEG: Verbal 𝜖-greedy for Semantic Exploration in Multi-Turn RL Agents ACL 2026