reinforcement learning

4122 papers

Explore in graph

Also known as

RLVR HARL GRPO RL PPO REINFORCE RFT DRL RL NULL LQR RLHF

Co-occurring keywords

large language model (12755) policy learning (699) markov decision process (788) policy gradient (518) policy optimization (630) deep reinforcement learning (903) multi-agent system (1743) imitation learning (741) regret bound (1918) language model (4573)

Papers

Self-Rewarding Large Vision-Language Models for Optimizing Prompts in Text-to-Image Generation ACL 2025

Thinking Out Loud: Do Reasoning Models Know When They’re Right? EMNLP 2025

REARANK: Reasoning Re-ranking Agent via Reinforcement Learning EMNLP 2025

Multi-Teacher Knowledge Distillation with Reinforcement Learning for Visual Recognition AAAI 2025

Hierarchical Multi-Agent Framework for Carbon-Efficient Liquid-Cooled Data Center Clusters AAAI 2025

Can GRPO Boost Complex Multimodal Table Understanding? EMNLP 2025

MuTIS: Enhancing Reasoning Efficiency through Multi Turn Intervention Sampling in Reinforcement Learning EMNLP 2025

Reinforcement Learning for Aligning Large Language Models Agents with Interactive Environments: Quantifying and Mitigating Prompt Overfitting NAACL 2025

Beyond Demonstrations: Dynamic Vector Construction from Latent Representations EMNLP 2025

Group-Aware Reinforcement Learning for Output Diversity in Large Language Models EMNLP 2025

Bandit Based Attention Mechanism in Vision Transformers WACV 2025

SDGO: Self-Discrimination-Guided Optimization for Consistent Safety in Large Language Models EMNLP 2025

UAlign: Leveraging Uncertainty Estimations for Factuality Alignment on Large Language Models ACL 2025

Enhancing Safe and Controllable Protein Generation via Knowledge Preference Optimization ACL 2025

EPO: Explicit Policy Optimization for Strategic Reasoning in LLMs via Reinforcement Learning ACL 2025

DRAE: Dynamic Retrieval-Augmented Expert Networks for Lifelong Learning and Task Adaptation in Robotics ACL 2025

CEAES: Bidirectional Reinforcement Learning Optimization for Consistent and Explainable Essay Assessment ACL 2025

Efficient Safety Alignment of Large Language Models via Preference Re-ranking and Representation-based Reward Modeling ACL 2025

Reinforcement Learning for Adversarial Query Generation to Enhance Relevance in Cold-Start Product Search ACL 2025

Neurosymbolic Reinforcement Learning: Playing MiniHack with Probabilistic Logic Shields AAAI 2025

Neural Combinatorial Optimization for Stochastic Flexible Job Shop Scheduling Problems AAAI 2025

KazBench-KK: A Cultural-Knowledge Benchmark for Kazakh ACL 2025

ACING: Actor-Critic for Instruction Learning in Black-Box LLMs EMNLP 2025

BindGPT: A Scalable Framework for 3D Molecular Design via Language Modeling and Reinforcement Learning AAAI 2025

Unleashing the Reasoning Potential of LLMs by Critique Fine-Tuning on One Problem EMNLP 2025