conftrace_

Reinforcement Learning › Methods ›

Offline RL

726 papers

Papers per year

2

1

1

1

2

3

2

6

4

8

29

60

105

129

187

126

37

23

'15

'20

'25

Papers

Soft Actor-Critic: Off-Policy Maximum Entropy Deep Reinforcement Learning with a Stochastic Actor ICML 2018

Self-Imitation Learning ICML 2018

Importance Weighted Transfer of Samples in Reinforcement Learning ICML 2018

Importance Sampling for Fair Policy Selection IJCAI 2018

Off-policy evaluation for slate recommendation NIPS 2017

Using Options and Covariance Testing for Long Horizon Off-Policy Policy Evaluation NIPS 2017

Constrained Bayesian Reinforcement Learning via Approximate Linear Programming IJCAI 2017

Online Decision-Making for Scalable Autonomous Systems IJCAI 2017

Blazing the trails before beating the path: Sample-efficient Monte-Carlo planning NIPS 2016

Safe and Efficient Off-Policy Reinforcement Learning NIPS 2016

Doubly Robust Off-policy Value Evaluation for Reinforcement Learning ICML 2016

Data-Efficient Off-Policy Policy Evaluation for Reinforcement Learning ICML 2016

An Emphatic Approach to the Problem of Off-policy Temporal-Difference Learning JMLR 2016

Weak Convergence Properties of Constrained Emphatic Temporal-difference Learning with Constant and Slowly Diminishing Stepsize JMLR 2016

Toward Minimax Off-policy Value Estimation AISTATS 2015

Off-policy Model-based Learning under Unknown Factored Dynamics ICML 2015

Weighted importance sampling for off-policy learning with linear function approximation NIPS 2014

Online Learning in Markov Decision Processes with Changing Cost Sequences ICML 2014

Off-policy Learning With Eligibility Traces: A Survey JMLR 2014

Regularized Off-Policy TD-Learning NIPS 2012

Cost-Sensitive Exploration in Bayesian Reinforcement Learning NIPS 2012

The Fixed Points of Off-Policy TD NIPS 2011

The Infinite Partially Observable Markov Decision Process NIPS 2009

A Convergent $O(n)$ Temporal-difference Algorithm for Off-policy Learning with Linear Function Approximation NIPS 2008

What makes some POMDP problems easy to approximate? NIPS 2007