conftrace_

reinforcement learning

4122 papers

Explore in graph

Also known as

RL REINFORCE

Co-occurring keywords

large language model (12755) policy learning (699) markov decision process (788) policy gradient (518) policy optimization (630) deep reinforcement learning (903) multi-agent system (1743) imitation learning (741) regret bound (1918) language model (4573)

Papers

TextShield-R1: Reinforced Reasoning for Tampered Text Detection AAAI 2026

UniMo: Unified Motion Generation and Understanding with Chain of Thought AAAI 2026

Affordance-R1: Reinforcement Learning for Generalizable Affordance Reasoning in Multimodal Large Language Models AAAI 2026

TaxonRL: Reinforcement Learning with Intermediate Rewards for Interpretable Fine-Grained Visual Reasoning WACV 2026

RemoteReasoner: Towards Unifying Geospatial Reasoning Workflow AAAI 2026

SAFER-AiD: Saccade-Assisted Foveal-peripheral vision Enhanced Reconstruction for Adversarial Defense WACV 2026

CueBench: Advancing Unified Understanding of Context-Aware Video Anomalies in Real-World AAAI 2026

No MoCap Needed: Post-Training Motion Diffusion Models with Reinforcement Learning using Only Textual Prompts WACV 2026

Reinforcement Learning-based Adaptive Control of Classifier-Free Guidance and Timestep Embeddings in Diffusion Models WACV 2026

Think Wise, Collaborate Effectively: A Rationale-Aware LLM-Based Recommender with Reinforcement Learning from Collaborative Signals AAAI 2026

UI-R1: Enhancing Efficient Action Prediction of GUI Agents by Reinforcement Learning AAAI 2026

AdaCuRL: Adaptive Curriculum Reinforcement Learning with Invalid Sample Mitigation and Historical Revisiting AAAI 2026

SHADOW: Dynamic-Aware Credit Assignment Against Long-Horizon Tasks AAAI 2026

Prototype Entropy Alignment: Reinforcing Structured Uncertainty in LLM Reasoning AAAI 2026

Revisiting the Data Sampling in Multimodal Post-training from a Difficulty-Distinguish View AAAI 2026

The Visual Prism: Refracting Images into Parallel Multilingual Descriptions with Structured Visual Guidance AAAI 2026

Think-J: Learning to Think for Generative LLM-as-a-Judge AAAI 2026

Rethinking the Sampling Criteria in Reinforcement Learning for LLM Reasoning: A Competence-Difficulty Alignment Perspective AAAI 2026

Reinforce Trustworthiness in Multimodal Emotional Support System AAAI 2026

RLMR: Reinforcement Learning with Mixed Rewards for Creative Writing AAAI 2026

Look as You Think: Unifying Reasoning and Visual Evidence Attribution for Verifiable Document RAG via Reinforcement Learning AAAI 2026

OPERA: A Reinforcement Learning--Enhanced Orchestrated Planner-Executor Architecture for Reasoning-Oriented Multi-Hop Retrieval AAAI 2026

InfiGUI-G1: Advancing GUI Grounding with Adaptive Exploration Policy Optimization AAAI 2026

Facilitating Early Maladaptive Schema–Guided Polite and Empathetic Psychotherapeutic Support: An LLM-Driven MoE-RL-Based Dialogue System AAAI 2026

Context-Sensitive Abstractions for Reinforcement Learning with Parameterized Actions AAAI 2026