reinforcement learning

4122 papers

Explore in graph

Also known as

RLVR HARL GRPO RL PPO REINFORCE RFT DRL RL NULL LQR RLHF

Co-occurring keywords

large language model (12755) policy learning (699) markov decision process (788) policy gradient (518) policy optimization (630) deep reinforcement learning (903) multi-agent system (1743) imitation learning (741) regret bound (1918) language model (4573)

Papers

First-Explore, then Exploit: Meta-Learning to Solve Hard Exploration-Exploitation Trade-Offs NIPS 2024

Embodied Human Activity Recognition WACV 2024

Rapid Motor Adaptation for Robotic Manipulator Arms CVPR 2024

CryoRL: Reinforcement Learning Enables Efficient Cryo-EM Data Collection WACV 2024

Planning Like Human: A Dual-process Framework for Dialogue Planning ACL 2024

Training Diffusion Models Towards Diverse Image Generation with Reinforcement Learning CVPR 2024

Controlling Character Motions Without Observable Driving Source WACV 2024

Learning Dynamic Mechanisms in Unknown Environments: A Reinforcement Learning Approach JMLR 2024

Effect-Invariant Mechanisms for Policy Generalization JMLR 2024

Efficient Reinforcement Learning by Discovering Neural Pathways NIPS 2024

A Nearly Optimal and Low-Switching Algorithm for Reinforcement Learning with General Function Approximation NIPS 2024

Real-Time Recurrent Learning using Trace Units in Reinforcement Learning NIPS 2024

Excluding the Irrelevant: Focusing Reinforcement Learning through Continuous Action Masking NIPS 2024

AuctionNet: A Novel Benchmark for Decision-Making in Large-Scale Games NIPS 2024

Spectral-Risk Safe Reinforcement Learning with Convergence Guarantees NIPS 2024

Text2Chart31: Instruction Tuning for Chart Generation with Automatic Feedback EMNLP 2024

StablePrompt : Automatic Prompt Tuning using Reinforcement Learning for Large Language Model EMNLP 2024

Abstract Reward Processes: Leveraging State Abstraction for Consistent Off-Policy Evaluation NIPS 2024

Enhancing Reinforcement Learning with Dense Rewards from Language Model Critic EMNLP 2024

SaySelf: Teaching LLMs to Express Confidence with Self-Reflective Rationales EMNLP 2024

Sample Complexity Reduction via Policy Difference Estimation in Tabular Reinforcement Learning NIPS 2024

Crafting Personalized Agents through Retrieval-Augmented Generation on Editable Memory Graphs EMNLP 2024

How Do Humans Write Code? Large Models Do It the Same Way Too EMNLP 2024

Outcome-Constrained Large Language Models for Countering Hate Speech EMNLP 2024

Direct Multi-Turn Preference Optimization for Language Agents EMNLP 2024