reinforcement learning

4122 papers

Explore in graph

Also known as

RLVR HARL GRPO RL PPO REINFORCE RFT DRL RL NULL LQR RLHF

Co-occurring keywords

large language model (12755) policy learning (699) markov decision process (788) policy gradient (518) policy optimization (630) deep reinforcement learning (903) multi-agent system (1743) imitation learning (741) regret bound (1918) language model (4573)

Papers

Probabilistic Inference in Reinforcement Learning Done Right NIPS 2023

Uncertainty Estimation for Safety-critical Scene Segmentation via Fine-grained Reward Maximization NIPS 2023

Continual Learning for Instruction Following from Realtime Feedback NIPS 2023

SNeRL: Semantic-aware Neural Radiance Fields for Reinforcement Learning ICML 2023

State Regularized Policy Optimization on Data with Dynamics Shift NIPS 2023

Contrastive Modules with Temporal Attention for Multi-Task Reinforcement Learning NIPS 2023

Policy Optimization in a Noisy Neighborhood: On Return Landscapes in Continuous Control NIPS 2023

Fast Bellman Updates for Wasserstein Distributionally Robust MDPs NIPS 2023

A Novel Framework for Policy Mirror Descent with General Parameterization and Linear Convergence NIPS 2023

Towards a better understanding of representation dynamics under TD-learning ICML 2023

Learning World Models with Identifiable Factorization NIPS 2023

Learning to Modulate pre-trained Models in RL NIPS 2023

Hierarchical Adaptive Value Estimation for Multi-modal Visual Reinforcement Learning NIPS 2023

Diverse Conventions for Human-AI Collaboration NIPS 2023

Prioritizing Samples in Reinforcement Learning with Reducible Loss NIPS 2023

Online Nonstochastic Model-Free Reinforcement Learning NIPS 2023

Information Design in Multi-Agent Reinforcement Learning NIPS 2023

User Simulator Assisted Open-ended Conversational Recommendation System ACL 2023

Jump-Start Reinforcement Learning ICML 2023

SelfTune: Tuning Cluster Managers NSDI 2023

Belief Projection-Based Reinforcement Learning for Environments with Delayed Feedback NIPS 2023

Learning Score-based Grasping Primitive for Human-assisting Dexterous Grasping NIPS 2023

Rewiring Neurons in Non-Stationary Environments NIPS 2023

Compositional Policy Learning in Stochastic Control Systems with Formal Guarantees NIPS 2023

ScriptWorld: Text Based Environment for Learning Procedural Knowledge IJCAI 2023