conftrace_

reinforcement learning

4352 papers

Explore in graph

Also known as

RL REINFORCE

Co-occurring keywords

large language model (13587) policy learning (702) markov decision process (790) policy optimization (657) policy gradient (520) deep reinforcement learning (903) multi-agent system (1819) imitation learning (744) regret bound (1926) language model (4599)

Papers

Rewarding the Unlikely: Lifting GRPO Beyond Distribution Sharpening EMNLP 2025

Group-Aware Reinforcement Learning for Output Diversity in Large Language Models EMNLP 2025

SDGO: Self-Discrimination-Guided Optimization for Consistent Safety in Large Language Models EMNLP 2025

FLAG-TRADER: Fusion LLM-Agent with Gradient-based Reinforcement Learning for Financial Trading ACL 2025

The Silent Saboteur: Imperceptible Adversarial Attacks against Black-Box Retrieval-Augmented Generation Systems ACL 2025

Context Reasoner: Incentivizing Reasoning Capability for Contextualized Privacy and Safety Compliance via Reinforcement Learning EMNLP 2025

On-Policy Self-Alignment with Fine-grained Knowledge Feedback for Hallucination Mitigation ACL 2025

COPR: Continual Human Preference Learning via Optimal Policy Regularization ACL 2025

Towards Medical Complex Reasoning with LLMs through Medical Verifiable Problems ACL 2025

R3-RAG: Learning Step-by-Step Reasoning and Retrieval for LLMs via Reinforcement Learning EMNLP 2025

Teaching Language Models To Gather Information Proactively EMNLP 2025

Beyond Demonstrations: Dynamic Vector Construction from Latent Representations EMNLP 2025

RAG-Zeval: Enhancing RAG Responses Evaluator through End-to-End Reasoning and Ranking-Based Reinforcement Learning EMNLP 2025

NOVER: Incentive Training for Language Models via Verifier-Free Reinforcement Learning EMNLP 2025

Score-Aware Policy-Gradient and Performance Guarantees using Local Lyapunov Stability JMLR 2025

LLM Critics Help Catch Bugs in Mathematics: Towards a Better Mathematical Verifier with Natural Language Feedback ACL 2025

TACO-RL: Task Aware Prompt Compression Optimization with Reinforcement Learning ACL 2025

Proactive Guidance of Multi-Turn Conversation in Industrial Search ACL 2025

Gazing at Rewards: Eye Movements as a Lens into Human and AI Decision-Making in Hybrid Visual Foraging CVPR 2025

One Missing Piece for Open-Source Reasoning Models: A Dataset to Mitigate Cold-Starting Short CoT LLMs in RL ACL 2025

RAVEN: Robust Advertisement Video Violation Temporal Grounding via Reinforcement Reasoning ACL 2025

ViUniT: Visual Unit Tests for More Robust Visual Programming CVPR 2025

Towards Efficient LLM Grounding for Embodied Multi-Agent Collaboration ACL 2025

LLM-Enhanced Self-Evolving Reinforcement Learning for Multi-Step E-Commerce Payment Fraud Risk Detection ACL 2025

All-Optical Nonlinear Diffractive Deep Network for Ultrafast Image Denoising CVPR 2025