reinforcement learning

4122 papers

Explore in graph

Also known as

RLVR HARL GRPO RL PPO REINFORCE RFT DRL RL NULL LQR RLHF

Co-occurring keywords

large language model (12755) policy learning (699) markov decision process (788) policy gradient (518) policy optimization (630) deep reinforcement learning (903) multi-agent system (1743) imitation learning (741) regret bound (1918) language model (4573)

Papers

SRD: Reinforcement-Learned Semantic Perturbation for Backdoor Defense in VLMs AAAI 2026

Start Small, Think Big: Curriculum-based Relative Policy Optimization for Visual Grounding AAAI 2026

ReaSon: Reinforced Causal Search with Information Bottleneck for Video Understanding AAAI 2026

MedEyes: Learning Dynamic Visual Focus for Medical Progressive Diagnosis AAAI 2026

TOP-RL: Task-Optimized Progressive Token Pruning with Reinforcement Learning for Vision Language Models AAAI 2026

Inferring Heterogeneous Private Valuations from Offline Market Data via Entropic Risk-Sensitive Utility Maximization AAAI 2026

Towards Adaptive Humanoid Control via Multi-Behavior Distillation and Reinforced Fine-Tuning AAAI 2026

Gentle Manipulation Policy Learning via Demonstrations from VLM Planned Atomic Skills AAAI 2026

MoE-Guided Graph Diffusion for Oriented Molecule Design AAAI 2026

BRIC: Bridging Kinematic Plans and Physical Control at Test Time AAAI 2026

COVR: Collaborative Optimization of VLMs and RL Agent for Visual-Based Control AAAI 2026

CastX: Cohort-Level Causal Inference Meets Statistical Testing for Faithful and Reliable GNN Explanations AAAI 2026

ArchetypeTrader: Reinforcement Learning for Selecting and Refining Learnable Strategic Archetypes in Quantitative Trading AAAI 2026

GUI-Eyes: Tool-Augmented Perception for Visual Grounding in GUI Agents AAAI 2026

Vision-Language Reasoning for Geolocalization: A Reinforcement Learning Approach AAAI 2026

ASKD: Reinforcement Learning-Style Knowledge Distillation with Quality-Adaptive Skewness AAAI 2026

CycleChemist: A Dual-Pronged Machine Learning Framework for Organic Photovoltaic Discovery AAAI 2026

Realistic Curriculum Reinforcement Learning for Autonomous and Sustainable Marine Vessel Navigation AAAI 2026

DDIN: Reinforcement Learning with Asymmetric GNNs for Dismantling Directed Interdependent Networks (Student Abstract) AAAI 2026

OR-R1: Automating Modeling and Solving of Operations Research Optimization Problem via Test-Time Reinforcement Learning AAAI 2026

Guided Distillation and Risk Adaptive Evolution for Multi-Robot Navigation AAAI 2026

Multimodal Table Understanding with Difficulty-aware Reinforcement Learning AAAI 2026

VRAgent-R1: Boosting Video Recommendation with MLLM-based Agents via Reinforcement Learning AAAI 2026

Reality vs Counterfactual: Multi-World Contrastive Reinforcement Learning for Enhancing MLLM’s Theory of Mind in Egocentric Videos AAAI 2026

Toward Causal Foundation World Models: From Representation to Decision-Making AAAI 2026