reinforcement learning

4122 papers

Explore in graph

Also known as

RLVR HARL GRPO RL PPO REINFORCE RFT DRL RL NULL LQR RLHF

Co-occurring keywords

large language model (12755) policy learning (699) markov decision process (788) policy gradient (518) policy optimization (630) deep reinforcement learning (903) multi-agent system (1743) imitation learning (741) regret bound (1918) language model (4573)

Papers

Projected Natural Actor-Critic NIPS 2013

The Sample-Complexity of General Reinforcement Learning ICML 2013

Bayesian Mixture Modelling and Inference based Thompson Sampling in Monte-Carlo Tree Search NIPS 2013

Temporal Difference Methods for the Variance of the Reward To Go ICML 2013

Bellman Error Based Feature Generation using Random Projections on Sparse Spaces NIPS 2013

Policy Shaping: Integrating Human Feedback with Reinforcement Learning NIPS 2013

Competing with an Infinite Set of Models in Reinforcement Learning AISTATS 2013

Variational Policy Search via Trajectory Optimization NIPS 2013

Reward Mapping for Transfer in Long-Lived Agents NIPS 2013

(More) Efficient Reinforcement Learning via Posterior Sampling NIPS 2013

Approximate Dynamic Programming Finally Performs Well in the Game of Tetris NIPS 2013

Optimistic policy iteration and natural actor-critic: A unifying view and a non-optimality result NIPS 2013

Actor-Critic Algorithms for Risk-Sensitive MDPs NIPS 2013

Efficient Exploration and Value Function Generalization in Deterministic Systems NIPS 2013

Adaptive Step-Size for Policy Gradient Methods NIPS 2013

Reinforcement Learning in Robust Markov Decision Processes NIPS 2013

Online learning in episodic Markovian decision processes by relative entropy policy search NIPS 2013

Symbolic Opportunistic Policy Iteration for Factored-Action MDPs NIPS 2013

Efficient Reinforcement Learning for High Dimensional Linear Quadratic Systems NIPS 2012

On-line Reinforcement Learning Using Incremental Kernel-Based Stochastic Factorization NIPS 2012

Value Pursuit Iteration NIPS 2012

Algorithms for Learning Markov Field Policies NIPS 2012

On Stochastic Optimal Control and Reinforcement Learning by Approximate Inference RSS 2012

Autonomous Exploration For Navigating In MDPs COLT 2012

Transfer in Reinforcement Learning via Shared Features JMLR 2012