conftrace_

reinforcement learning

4352 papers

Explore in graph

Also known as

RL REINFORCE

Co-occurring keywords

large language model (13587) policy learning (702) markov decision process (790) policy optimization (657) policy gradient (520) deep reinforcement learning (903) multi-agent system (1819) imitation learning (744) regret bound (1926) language model (4599)

Papers

From Perceptions to Decisions: Wildfire Evacuation Decision Prediction with Behavioral Theory-informed LLMs ACL 2025

Incorporating Review-missing Interactions for Generative Explainable Recommendation COLING 2025

AdsQA: Towards Advertisement Video Understanding ICCV 2025

A Knowledge Graph Reasoning-Based Model for Computerized Adaptive Testing COLING 2025

BPO: Towards Balanced Preference Optimization between Knowledge Breadth and Depth in Alignment NAACL 2025

Proactive Guidance of Multi-Turn Conversation in Industrial Search ACL 2025

Scaling LLM Inference Efficiently with Optimized Sample Compute Allocation NAACL 2025

Dynamic Uncertainty Ranking: Enhancing Retrieval-Augmented In-Context Learning for Long-Tail Knowledge in LLMs NAACL 2025

Beyond the First Error: Process Reward Models for Reflective Mathematical Reasoning EMNLP 2025

Continuous-Time Reward Machines IJCAI 2025

R1-Onevision: Advancing Generalized Multimodal Reasoning through Cross-Modal Formalization ICCV 2025

Training Medical QA Models Based on Mixed Rewards from Multiple-Choice and Open-Ended Questions EMNLP 2025

To Code or not to Code? Adaptive Tool Integration for Math Language Models via Expectation-Maximization ACL 2025

GOODLIAR: A Reinforcement Learning-Based Deceptive Agent for Disrupting LLM Beliefs on Foundational Principles ACL 2025

RAG-Zeval: Enhancing RAG Responses Evaluator through End-to-End Reasoning and Ranking-Based Reinforcement Learning EMNLP 2025

Kill two birds with one stone: generalized and robust AI-generated text detection via dynamic perturbations NAACL 2025

Embodied Navigation with Auxiliary Task of Action Description Prediction ICCV 2025

KIPPO: Koopman-Inspired Proximal Policy Optimization IJCAI 2025

Unleashing the Reasoning Potential of LLMs by Critique Fine-Tuning on One Problem EMNLP 2025

InterMimic: Towards Universal Whole-Body Control for Physics-Based Human-Object Interactions CVPR 2025

PhonoThink: Improving Large Language Models’ Reasoning on Chinese Phonological Ambiguities EMNLP 2025

AlphaGAT: A Two-Stage Learning Approach for Adaptive Portfolio Selection IJCAI 2025

Refusal-Aware Red Teaming: Exposing Inconsistency in Safety Evaluations EMNLP 2025

AToM: Aligning Text-to-Motion Model at Event-Level with GPT-4Vision Reward CVPR 2025

TokenHSI: Unified Synthesis of Physical Human-Scene Interactions through Task Tokenization CVPR 2025