conftrace_

← Learning Types

Deep Learning › Learning Types ›

Reasoning

32 papers

Papers per year

1

1

3

27

Papers

Mixture-of-Minds: Multi-Agent Reinforcement Learning for Table Understanding ACL 2026

Optimizing Length Compression in Large Reasoning Models ACL 2026

Guaranteeing Knowledge Integration with Joint Decoding for Retrieval-Augmented Generation ACL 2026

Unified Thinker: A General Reasoning Core for Image Generation ACL 2026

Learning from Contrasts: Synthesizing Reasoning Paths from Diverse Search Trajectories ACL 2026

The Bidirectional Process Reward Model ACL 2026

Rethinking Table Pruning in TableQA: From Sequential Revisions to Gold Trajectory-Supervised Parallel Search ACL 2026

Learning While Staying Curious: Entropy-Preserving Supervised Fine-Tuning via Adaptive Self-Distillation for Large Reasoning Models ACL 2026

Less is More: Improving LLM Reasoning with Minimal Test-Time Intervention ACL 2026

ReasonRank: Empowering Passage Ranking with Strong Reasoning Ability ACL 2026

SHAPE: Stage-aware Hierarchical Advantage via Potential Estimation for LLM Reasoning ACL 2026

ConfSpec: Efficient Step-Level Speculative Reasoning via Confidence-Gated Verification ACL 2026

Diffuse Thinking: Exploring Diffusion Language Models as Efficient Thought Proposers for Reasoning ACL 2026

Process Reward Models Meet Planning: Generating Precise and Scalable Datasets for Step-Level Rewards ACL 2026

Learning from Mistakes: Negative Reasoning Samples Enhance Out-of-Domain Generalization ACL 2026

Debate-of-Thoughts: Resolving Knowledge Conflicts in LLMs Through Internal Deliberation ACL 2026

SQL-Trail: Multi-Turn Reinforcement Learning with Interleaved Feedback for Text-to-SQL ACL 2026

CE-GPPO: Coordinating Entropy via Gradient-Preserving Clipping Policy Optimization in Reinforcement Learning ACL 2026

Mitigating Safety Context Amnesia in Multimodal Reasoning Models via Intent-Guided Safety Reasoning ACL 2026

ERCThinker: Fast-Slow Thinking for Emotion Recognition in Conversation ACL 2026

KnowRL: Exploring Knowledgeable Reinforcement Learning for Factuality ACL 2026

AdaMix: Adaptive Mixing for Short and Long Reasoning Adapters ACL 2026

Empowering Multi-Turn Tool-Integrated Agentic Reasoning with Group Turn Policy Optimization ACL 2026

ReCode: Reinforcing Code Generation with Reasoning-Process Rewards ACL 2026

Awakening Dormant Experts:Counterfactual Routing to Mitigate MoE Hallucinations ACL 2026