Reinforcement Learning › Methods ›

Deep RL

3861 directly classified papers

Papers per year

Papers

Bridging Imagination and Reality for Model-Based Deep Reinforcement Learning NIPS 2020

Is Long Horizon RL More Difficult Than Short Horizon RL? NIPS 2020

Self-Paced Deep Reinforcement Learning NIPS 2020

Steady State Analysis of Episodic Reinforcement Learning NIPS 2020

Can Q-Learning with Graph Networks Learn a Generalizable Branching Heuristic for a SAT Solver? NIPS 2020

An Efficient Asynchronous Method for Integrating Evolutionary and Gradient-based Policy Search NIPS 2020

Trust the Model When It Is Confident: Masked Model-based Actor-Critic NIPS 2020

Shared Experience Actor-Critic for Multi-Agent Reinforcement Learning NIPS 2020

RD$^2$: Reward Decomposition with Representation Decomposition NIPS 2020

Instance-based Generalization in Reinforcement Learning NIPS 2020

Task-agnostic Exploration in Reinforcement Learning NIPS 2020

Provably Efficient Reward-Agnostic Navigation with Linear Value Iteration NIPS 2020

Softmax Deep Double Deterministic Policy Gradients NIPS 2020

Sample Efficient Reinforcement Learning via Low-Rank Matrix Estimation NIPS 2020

Leverage the Average: an Analysis of KL Regularization in Reinforcement Learning NIPS 2020

Breaking the Sample Size Barrier in Model-Based Reinforcement Learning with a Generative Model NIPS 2020

Reward Propagation Using Graph Convolutional Networks NIPS 2020

Trajectory-wise Multiple Choice Learning for Dynamics Generalization in Reinforcement Learning NIPS 2020

Sparse Graphical Memory for Robust Planning NIPS 2020

Online Decision Based Visual Tracking via Reinforcement Learning NIPS 2020

Agnostic $Q$-learning with Function Approximation in Deterministic Systems: Near-Optimal Bounds on Approximation Error and Sample Complexity NIPS 2020

Effective Diversity in Population Based Reinforcement Learning NIPS 2020

Simultaneously Learning Stochastic and Adversarial Episodic MDPs with Known Transition NIPS 2020

A Unified Switching System Perspective and Convergence Analysis of Q-Learning Algorithms NIPS 2020

Bias no more: high-probability data-dependent regret bounds for adversarial bandits and MDPs NIPS 2020