reinforcement learning

4122 papers

Explore in graph

Also known as

RLVR HARL GRPO RL PPO REINFORCE RFT DRL RL NULL LQR RLHF

Co-occurring keywords

large language model (12755) policy learning (699) markov decision process (788) policy gradient (518) policy optimization (630) deep reinforcement learning (903) multi-agent system (1743) imitation learning (741) regret bound (1918) language model (4573)

Papers

Skill Disentanglement in Reproducing Kernel Hilbert Space AAAI 2025

PKU-SafeRLHF: Towards Multi-Level Safety Alignment for LLMs with Human Preference ACL 2025

A Reinforcement Learning Framework for Cross-Lingual Stance Detection Using Chain-of-Thought Alignment ACL 2025

Natural Logic at the Core: Dynamic Rewards for Entailment Tree Generation ACL 2025

AI-Driven Multicultural Identity Preservation AAAI 2025

Debate4MATH: Multi-Agent Debate for Fine-Grained Reasoning in Math ACL 2025

Local Look-Ahead Guidance via Verifier-in-the-Loop for Automated Theorem Proving ACL 2025

Optimizing Gene-Based Testing for Antibiotic Resistance Prediction AAAI 2025

Smart-Searcher: Incentivizing the Dynamic Knowledge Acquisition of LLMs via Reinforcement Learning EMNLP 2025

Dialogue Systems for Emotional Support via Value Reinforcement ACL 2025

Mutual-Taught for Co-adapting Policy and Reward Models ACL 2025

Efficient and Robust Reinforcement Learning from Human Feedback AAAI 2025

Breaking the Self-Evaluation Barrier: Reinforced Neuro-Symbolic Planning with Large Language Models IJCAI 2025

GTR: Guided Thought Reinforcement Prevents Thought Collapse in RL-based VLM Agent Training ICCV 2025

The POWER of Ikigai: Optimizing Life Fulfillment with an Integrated User Simulator and Adaptive Hobby Recommender AAAI 2025

Enhancing Decision-Making for LLM Agents via Step-Level Q-Value Models AAAI 2025

Cross-Validated Off-Policy Evaluation AAAI 2025

CodePRM: Execution Feedback-enhanced Process Reward Model for Code Generation ACL 2025

Evolutionary Large Language Model for Automated Feature Transformation AAAI 2025

Breaking Barriers: A Paradigm Shift in Technology Accessibility for Individuals with Physical Disabilities AAAI 2025

ScaleOT: Privacy-utility-scalable Offsite-tuning with Dynamic LayerReplace and Selective Rank Compression AAAI 2025

Shy-hunyuan-MT at WMT25 General Machine Translation Shared Task EMNLP 2025

Universal Post-Processing Networks for Joint Optimization of Modules in Task-Oriented Dialogue Systems AAAI 2025

Teaching Models to Improve on Tape AAAI 2025

Beyond Prompt Engineering: A Reinforced Token-Level Input Refinement for Large Language Models AAAI 2025