reinforcement learning

4122 papers

Explore in graph

Also known as

RLVR HARL GRPO RL PPO REINFORCE RFT DRL RL NULL LQR RLHF

Co-occurring keywords

large language model (12755) policy learning (699) markov decision process (788) policy gradient (518) policy optimization (630) deep reinforcement learning (903) multi-agent system (1743) imitation learning (741) regret bound (1918) language model (4573)

Papers

ConvSearch-R1: Enhancing Query Reformulation for Conversational Search with Reasoning via Reinforcement Learning EMNLP 2025

Learning with Linear Function Approximations in Mean-Field Control JMLR 2025

Reinforcement Active Client Selection for Federated Heterogeneous Graph Learning AAAI 2025

Score-Aware Policy-Gradient and Performance Guarantees using Local Lyapunov Stability JMLR 2025

DynaQuest: A Dynamic Question Answering Dataset Reflecting Real-World Knowledge Updates ACL 2025

Statistical field theory for Markov decision processes under uncertainty JMLR 2025

Integrating Symbolic Execution into the Fine-Tuning of Code-Generating LLMs NAACL 2025

From Multimodal LLMs to Generalist Embodied Agents: Methods and Lessons CVPR 2025

Learning to Sample Effective and Diverse Prompts for Text-to-Image Generation CVPR 2025

Enhancing Question Generation through Diversity-Seeking Reinforcement Learning with Bilevel Policy Decomposition AAAI 2025

Learning to Generate Structured Output with Schema Reinforcement Learning ACL 2025

Reinforcement Learning for Infinite-Dimensional Systems JMLR 2025

StepSearch: Igniting LLMs Search Ability via Step-Wise Proximal Policy Optimization EMNLP 2025

Client Selection for Federated Policy Optimization with Environment Heterogeneity JMLR 2025

Towards Pareto-Efficient RLHF: Paying Attention to a Few High-Reward Samples with Reward Dropout EMNLP 2024

Navigating Noisy Feedback: Enhancing Reinforcement Learning with Error-Prone Language Models EMNLP 2024

Online Iterative Reinforcement Learning from Human Feedback with General Preference Model NIPS 2024

Transformers Learn Transition Dynamics when Trained to Predict Markov Decision Processes EMNLP 2024

Searching for Programmatic Policies in Semantic Spaces IJCAI 2024

GDPO: Learning to Directly Align Language Models with Diversity Using GFlowNets EMNLP 2024

Optimizing Language Models with Fair and Stable Reward Composition in Reinforcement Learning EMNLP 2024

Decision Mamba: Reinforcement Learning via Hybrid Selective Sequence Modeling NIPS 2024

Improving Discriminative Capability of Reward Models in RLHF Using Contrastive Learning EMNLP 2024

Don’t Forget Your Reward Values: Language Model Alignment via Value-based Calibration EMNLP 2024

Reinforcement Retrieval Leveraging Fine-grained Feedback for Fact Checking News Claims with Black-Box LLM COLING 2024