reinforcement learning

4122 papers

Explore in graph

Also known as

RLVR HARL GRPO RL PPO REINFORCE RFT DRL RL NULL LQR RLHF

Co-occurring keywords

large language model (12755) policy learning (699) markov decision process (788) policy gradient (518) policy optimization (630) deep reinforcement learning (903) multi-agent system (1743) imitation learning (741) regret bound (1918) language model (4573)

Papers

Reinforcement Learning in Newcomblike Environments NIPS 2021

Reinforcement Learning with Latent Flow NIPS 2021

The Sensory Neuron as a Transformer: Permutation-Invariant Neural Networks for Reinforcement Learning NIPS 2021

Average-Reward Learning and Planning with Options NIPS 2021

Counterexample Guided RL Policy Refinement Using Bayesian Optimization NIPS 2021

Causal Influence Detection for Improving Efficiency in Reinforcement Learning NIPS 2021

Sample-Efficient Reinforcement Learning for Linearly-Parameterized MDPs with a Generative Model NIPS 2021

Optimal Policies Tend To Seek Power NIPS 2021

XDO: A Double Oracle Algorithm for Extensive-Form Games NIPS 2021

Learning State Representations from Random Deep Action-conditional Predictions NIPS 2021

RL for Latent MDPs: Regret Guarantees and a Lower Bound NIPS 2021

Active Offline Policy Selection NIPS 2021

Adaptive Ensemble Q-learning: Minimizing Estimation Bias via Error Feedback NIPS 2021

Why Generalization in RL is Difficult: Epistemic POMDPs and Implicit Partial Observability NIPS 2021

Reward is enough for convex MDPs NIPS 2021

Provable Model-based Nonlinear Bandit and Reinforcement Learning: Shelve Optimism, Embrace Virtual Curvature NIPS 2021

Is Bang-Bang Control All You Need? Solving Continuous Control with Bernoulli Policies NIPS 2021

Co-GAIL: Learning Diverse Strategies for Human-Robot Collaboration CORL 2021

ColorRL: Reinforced Coloring for End-to-End Instance Segmentation CVPR 2021

Bridging the Imitation Gap by Adaptive Insubordination NIPS 2021

Policy Learning Using Weak Supervision NIPS 2021

Explicable Reward Design for Reinforcement Learning Agents NIPS 2021

Local policy search with Bayesian optimization NIPS 2021

Safe Policy Optimization with Local Generalized Linear Function Approximations NIPS 2021

Reinforcement Learning based Disease Progression Model for Alzheimer’s Disease NIPS 2021