Reinforcement Learning › Methods ›

Policy Learning

2068 directly classified papers

Papers per year

Papers

Implicit Distributional Reinforcement Learning NIPS 2020

Sample Complexity of Asynchronous Q-Learning: Sharper Analysis and Variance Reduction NIPS 2020

Dynamic Regret of Policy Optimization in Non-Stationary Environments NIPS 2020

Independent Policy Gradient Methods for Competitive Reinforcement Learning NIPS 2020

Safe Imitation Learning via Fast Bayesian Reward Inference from Preferences ICML 2020

Provably Efficient Exploration in Policy Optimization ICML 2020

Explore, Discover and Learn: Unsupervised Discovery of State-Covering Skills ICML 2020

Optimizing for the Future in Non-Stationary MDPs ICML 2020

Reinforcement Learning for Non-Stationary Markov Decision Processes: The Blessing of (More) Optimism ICML 2020

Global Concavity and Optimization in a Class of Dynamic Discrete Choice Models ICML 2020

Reinforcement Learning in Continuous Time and Space: A Stochastic Control Approach JMLR 2020

A Multi-Objective Approach to Mitigate Negative Side Effects IJCAI 2020

KoGuN: Accelerating Deep Reinforcement Learning via Integrating Human Suboptimal Knowledge IJCAI 2020

Generalized Mean Estimation in Monte-Carlo Tree Search IJCAI 2020

Only Relevant Information Matters: Filtering Out Noisy Samples To Boost RL IJCAI 2020

BRPO: Batch Residual Policy Optimization IJCAI 2020

Reinforcement Learning Framework for Deep Brain Stimulation Study IJCAI 2020

Constrained Policy Improvement for Efficient Reinforcement Learning IJCAI 2020

I²HRL: Interactive Influence-based Hierarchical Reinforcement Learning IJCAI 2020

Dual Policy Distillation IJCAI 2020

Steady-State Policy Synthesis in Multichain Markov Decision Processes IJCAI 2020

Verifiable RNN-Based Policies for POMDPs Under Temporal Logic Constraints IJCAI 2020

Sparse Tree Search Optimality Guarantees in POMDPs with Continuous Observation Spaces IJCAI 2020

Boundary Extension Features for Width-Based Planning with Simulators on Continuous-State Domains IJCAI 2020

Risk-Averse Trust Region Optimization for Reward-Volatility Reduction IJCAI 2020