reinforcement learning

4122 papers

Explore in graph

Also known as

RLVR HARL GRPO RL PPO REINFORCE RFT DRL RL NULL LQR RLHF

Co-occurring keywords

large language model (12755) policy learning (699) markov decision process (788) policy gradient (518) policy optimization (630) deep reinforcement learning (903) multi-agent system (1743) imitation learning (741) regret bound (1918) language model (4573)

Papers

Optimistic Exploration in Reinforcement Learning Using Symbolic Model Estimates NIPS 2023

Online Nonstochastic Model-Free Reinforcement Learning NIPS 2023

Prioritizing Samples in Reinforcement Learning with Reducible Loss NIPS 2023

Information Design in Multi-Agent Reinforcement Learning NIPS 2023

Online Prototype Alignment for Few-shot Policy Transfer ICML 2023

Diverse Conventions for Human-AI Collaboration NIPS 2023

Rewiring Neurons in Non-Stationary Environments NIPS 2023

StockFormer: Learning Hybrid Trading Machines with Predictive Coding IJCAI 2023

Q-Learning-Based Model Predictive Variable Impedance Control for Physical Human-Robot Collaboration (Extended Abstract) IJCAI 2023

Belief Projection-Based Reinforcement Learning for Environments with Delayed Feedback NIPS 2023

Physically Plausible Animation of Human Upper Body From a Single Image WACV 2023

Learning Score-based Grasping Primitive for Human-assisting Dexterous Grasping NIPS 2023

Fast Bellman Updates for Wasserstein Distributionally Robust MDPs NIPS 2023

Uncertainty Estimation for Safety-critical Scene Segmentation via Fine-grained Reward Maximization NIPS 2023

Explore to Generalize in Zero-Shot RL NIPS 2023

Breadcrumbs to the Goal: Goal-Conditioned Exploration from Human-in-the-Loop Feedback NIPS 2023

One Model, Any CSP: Graph Neural Networks as Fast Global Search Heuristics for Constraint Satisfaction IJCAI 2023

Learning from Active Human Involvement through Proxy Value Propagation NIPS 2023

SustainGym: Reinforcement Learning Environments for Sustainable Energy Systems NIPS 2023

Guiding Large Language Models via Directional Stimulus Prompting NIPS 2023

DPOK: Reinforcement Learning for Fine-tuning Text-to-Image Diffusion Models NIPS 2023

Active Observing in Continuous-time Control NIPS 2023

Few-Shot Structured Policy Learning for Multi-Domain and Multi-Task Dialogues EACL 2023

Towards Benchmarking and Improving the Temporal Reasoning Capability of Large Language Models ACL 2023

RPTCS: A Reinforced Persona-aware Topic-guiding Conversational System EACL 2023