reinforcement learning

4122 papers

Explore in graph

Also known as

RLVR HARL GRPO RL PPO REINFORCE RFT DRL RL NULL LQR RLHF

Co-occurring keywords

large language model (12755) policy learning (699) markov decision process (788) policy gradient (518) policy optimization (630) deep reinforcement learning (903) multi-agent system (1743) imitation learning (741) regret bound (1918) language model (4573)

Papers

Safe Policy Improvement by Minimizing Robust Baseline Regret NIPS 2016

Reinforcement Learning for Visual Object Detection CVPR 2016

End-to-End Goal-Driven Web Navigation NIPS 2016

Adaptive optimal training of animal behavior NIPS 2016

Threshold Learning for Optimal Decision Making NIPS 2016

Tree-Structured Reinforcement Learning for Sequential Object Localization NIPS 2016

Accelerating Stochastic Composition Optimization NIPS 2016

Recurrent Attention Models for Depth-Based Person Identification CVPR 2016

Dual Learning for Machine Translation NIPS 2016

Learning under uncertainty: a comparison between R-W and Bayesian approach NIPS 2016

Learning Multiagent Communication with Backpropagation NIPS 2016

Safe and Efficient Off-Policy Reinforcement Learning NIPS 2016

Deep Exploration via Bootstrapped DQN NIPS 2016

Improving PAC Exploration Using the Median Of Means NIPS 2016

Policy Evaluation Using the Ω-Return NIPS 2015

Variational Information Maximisation for Intrinsically Motivated Reinforcement Learning NIPS 2015

Learning to Track: Online Multi-Object Tracking by Decision Making ICCV 2015

Sample Complexity Bounds for Iterative Stochastic Policy Optimization NIPS 2015

Data Generation as Sequential Decision Making NIPS 2015

Robust Trajectory Optimization: A Cooperative Stochastic Game Theoretic Approach RSS 2015

Regularized Policy Gradients: Direct Variance Reduction in Policy Gradient Estimation ACML 2015

Non-Stationary Approximate Modified Policy Iteration ICML 2015

Universal Value Function Approximators ICML 2015

Rationality, Optimism and Guarantees in General Reinforcement Learning JMLR 2015

RLPy: A Value-Function-Based Reinforcement Learning Framework for Education and Research JMLR 2015