reinforcement learning

4122 papers

Explore in graph

Also known as

RLVR HARL GRPO RL PPO REINFORCE RFT DRL RL NULL LQR RLHF

Co-occurring keywords

large language model (12755) policy learning (699) markov decision process (788) policy gradient (518) policy optimization (630) deep reinforcement learning (903) multi-agent system (1743) imitation learning (741) regret bound (1918) language model (4573)

Papers

SRD: Reinforcement-Learned Semantic Perturbation for Backdoor Defense in VLMs AAAI 2026

Start Small, Think Big: Curriculum-based Relative Policy Optimization for Visual Grounding AAAI 2026

ReaSon: Reinforced Causal Search with Information Bottleneck for Video Understanding AAAI 2026

MedEyes: Learning Dynamic Visual Focus for Medical Progressive Diagnosis AAAI 2026

Inferring Heterogeneous Private Valuations from Offline Market Data via Entropic Risk-Sensitive Utility Maximization AAAI 2026

ManipLVM-R1: Reinforcement Learning for Reasoning in Embodied Manipulation with Large Vision-Language Models AAAI 2026

Gentle Manipulation Policy Learning via Demonstrations from VLM Planned Atomic Skills AAAI 2026

When Top-ranked Recommendations Fail: Modeling Multi-Granular Negative Feedback for Explainable and Robust Video Recommendation AAAI 2026

SDE-HARL: Scalable Distributed Policy Execution for Heterogeneous-Agent Reinforcement Learning AAAI 2026

Self-Interpretable Subgraph Neural Network with Deep Reinforcement Walk Exploration AAAI 2026

BRIC: Bridging Kinematic Plans and Physical Control at Test Time AAAI 2026

Learning to Explore: Policy-Guided Outlier Synthesis for Graph Out-of-Distribution Detection AAAI 2026

SAFER-AiD: Saccade-Assisted Foveal-peripheral vision Enhanced Reconstruction for Adversarial Defense WACV 2026

TaxonRL: Reinforcement Learning with Intermediate Rewards for Interpretable Fine-Grained Visual Reasoning WACV 2026

No MoCap Needed: Post-Training Motion Diffusion Models with Reinforcement Learning using Only Textual Prompts WACV 2026

MageBench: Bridging Large Multimodal Models to Agents WACV 2026

ST-Think: How Multimodal Large Language Models Reason About 4D Worlds from Ego-Centric Videos WACV 2026

SCoPE VLM: Selective Context Processing for Efficient Document Navigation in Vision-Language Models EACL 2026

AutoBool: Reinforcement-Learned LLM for Effective Automatic Systematic Reviews Boolean Query Generation EACL 2026

PaperSearchQA: Learning to Search and Reason over Scientific Papers with RLVR EACL 2026

Pseudo-Likelihood Training for Reasoning Diffusion Language Models EACL 2026

Offline Preference Optimization via Maximum Marginal Likelihood Estimation EACL 2026

A Reinforcement Learning Framework for Robust and Secure LLM Watermarking EACL 2026

Tandem Training for Language Models EACL 2026

ArchetypeTrader: Reinforcement Learning for Selecting and Refining Learnable Strategic Archetypes in Quantitative Trading AAAI 2026