conftrace_

reinforcement learning

4352 papers

Explore in graph

Also known as

RL REINFORCE

Co-occurring keywords

large language model (13587) policy learning (702) markov decision process (790) policy optimization (657) policy gradient (520) deep reinforcement learning (903) multi-agent system (1819) imitation learning (744) regret bound (1926) language model (4599)

Papers

Parrot: A Training Pipeline Enhances Both Program CoT and Natural Language CoT for Reasoning EMNLP 2025

IntentionFrame: A Semi-Structured, Multi-Aspect Framework for Fine-Grained Conversational Intention Understanding EMNLP 2025

Do LLMs Need Inherent Reasoning Before Reinforcement Learning? A Study in Korean Self-Correction AACL 2025

DiaLLMs: EHR-Enhanced Clinical Conversational System for Clinical Test Recommendation and Diagnosis Prediction ACL 2025

Online Learning Defense against Iterative Jailbreak Attacks via Prompt Optimization AACL 2025

Token-level Proximal Policy Optimization for Query Generation EMNLP 2025

STACKFEED: Structured Textual Actor-Critic Knowledge base editing with FEEDback EMNLP 2025

RAVEN++: Pinpointing Fine-Grained Violations in Advertisement Videos with Active Reinforcement Reasoning EMNLP 2025

Auto-Weighted Group Relative Preference Optimization for Multi-Objective Text Generation Tasks EMNLP 2025

DecEx-RAG: Boosting Agentic Retrieval-Augmented Generation with Decision and Execution Optimization via Process Supervision EMNLP 2025

In-Context Reinforcement Learning with Retrieval-Augmented Generation for Text-to-SQL COLING 2025

Tra-MoE: Learning Trajectory Prediction Model from Multiple Domains for Adaptive Policy Conditioning CVPR 2025

Neural Motion Simulator Pushing the Limit of World Models in Reinforcement Learning CVPR 2025

A Collaborative Reasoning Framework Powered by Reinforcement Learning and Large Language Models for Complex Questions Answering over Knowledge Graph COLING 2025

Touch2Shape: Touch-Conditioned 3D Diffusion for Shape Exploration and Reconstruction CVPR 2025

SegAgent: Exploring Pixel Understanding Capabilities in MLLMs by Imitating Human Annotator Trajectories CVPR 2025

KazBench-KK: A Cultural-Knowledge Benchmark for Kazakh ACL 2025

SeqPO-SiMT: Sequential Policy Optimization for Simultaneous Machine Translation ACL 2025

PATeam at SemEval-2025 Task 10: Two-stage News Analytical Framework: Target-oriented Semantic Segmentation and Sequence Generation LLMs for Cross-Lingual Entity and Narrative Analysis ACL 2025

Full-Step-DPO: Self-Supervised Preference Optimization with Step-wise Rewards for Mathematical Reasoning ACL 2025

RichRAG: Crafting Rich Responses for Multi-faceted Queries in Retrieval-Augmented Generation COLING 2025

KodCode: A Diverse, Challenging, and Verifiable Synthetic Dataset for Coding ACL 2025

Reward Fine-Tuning Two-Step Diffusion Models via Learning Differentiable Latent-Space Surrogate Reward CVPR 2025

Optimus-2: Multimodal Minecraft Agent with Goal-Observation-Action Conditioned Policy CVPR 2025

Convert Language Model into a Value-based Strategic Planner ACL 2025