reinforcement learning

4122 papers

Explore in graph

Also known as

RLVR HARL GRPO RL PPO REINFORCE RFT DRL RL NULL LQR RLHF

Co-occurring keywords

large language model (12755) policy learning (699) markov decision process (788) policy gradient (518) policy optimization (630) deep reinforcement learning (903) multi-agent system (1743) imitation learning (741) regret bound (1918) language model (4573)

Papers

Teaching Large Language Models to Maintain Contextual Faithfulness via Synthetic Tasks and Reinforcement Learning AAAI 2026

No MoCap Needed: Post-Training Motion Diffusion Models with Reinforcement Learning using Only Textual Prompts WACV 2026

MageBench: Bridging Large Multimodal Models to Agents WACV 2026

Memory-Augmented Representation for Efficient Event-based Visuomotor Policy Learning with Adaptive Perception and Control WACV 2026

ST-Think: How Multimodal Large Language Models Reason About 4D Worlds from Ego-Centric Videos WACV 2026

AutoBool: Reinforcement-Learned LLM for Effective Automatic Systematic Reviews Boolean Query Generation EACL 2026

PaperSearchQA: Learning to Search and Reason over Scientific Papers with RLVR EACL 2026

SPARTA: Evaluating Reasoning Segmentation Robustness through Black-Box Adversarial Paraphrasing in Text Autoencoder Latent Space EACL 2026

Confidence-Calibrated Small-Large Language Model Collaboration for Cost-Efficient Reasoning EACL 2026

A Reinforcement Learning Framework for Robust and Secure LLM Watermarking EACL 2026

Tandem Training for Language Models EACL 2026

KETCHUP: K-Step Return Estimation for Sequential Knowledge Distillation EACL 2026

VaseVQA: Multimodal Agent and Benchmark for Ancient Greek Pottery EACL 2026

SALT: Step-level Advantage Assignment for Long-horizon Agents via Trajectory Graph EACL 2026

Think Just Enough: Leveraging Self-Assessed Confidence for Adaptive Reasoning in Language Models EACL 2026

AMIYA Shared Task: Arabic Modeling In Your Accent at VarDial 2026 EACL 2026

NUS-IDS at AMIYA/VarDial 2026: Improving Arabic Dialectness in LLMs with Reinforcement Learning EACL 2026

Aligning Text, Code, and Vision: A Multi-Objective Reinforcement Learning Framework for Text-to-Visualization EACL 2026

Learning to Ideate for Machine Learning Engineering Agents EACL 2026

Designed to Spread: A Generative Approach to Enhance Information Diffusion AAAI 2026

Structure-based RNA Design by Step-wise Optimization of Latent Diffusion Model AAAI 2026

OmniPT: Unleashing the Potential of Large Vision Language Models for Pedestrian Tracking and Understanding AAAI 2026

MIRAGE: Towards AI-Generated Image Detection in the Wild AAAI 2026

ReCAD: Reinforcement Learning Enhanced Parametric CAD Model Generation with Vision-Language Models AAAI 2026

Reinforcement Learning Enhanced Muti-hop Reasoning for Temporal Knowledge Question Answering AAAI 2026