Reinforcement Learning › Methods ›

Offline RL

725 directly classified papers

Papers per year

Papers

Provably Efficient Offline Reinforcement Learning for Partially Observable Markov Decision Processes ICML 2022

Learning Pseudometric-based Action Representations for Offline Reinforcement Learning ICML 2022

Offline RL Policies Should Be Trained to be Adaptive ICML 2022

Few-Shot Preference Learning for Human-in-the-Loop RL CORL 2022

[CASPI] Causal-aware Safe Policy Improvement for Task-oriented Dialogue ACL 2022

Latent Plans for Task-Agnostic Offline Reinforcement Learning CORL 2022

Adversarially Trained Actor Critic for Offline Reinforcement Learning ICML 2022

Learning Bellman Complete Representations for Offline Policy Evaluation ICML 2022

Stabilizing Off-Policy Deep Reinforcement Learning from Pixels ICML 2022

Learning Goal-Conditioned Policies Offline with Self-Supervised Reward Shaping CORL 2022

Towards Robust Off-Policy Learning for Runtime Uncertainty AAAI 2022

Constraints Penalized Q-learning for Safe Offline Reinforcement Learning AAAI 2022

Policy Optimization for Stochastic Shortest Path COLT 2022

Data-Driven Offline Decision-Making via Invariant Representation Learning NIPS 2022

Learning Adversarial Markov Decision Processes with Delayed Feedback AAAI 2022

Offline-to-Online Co-Evolutional User Simulator and Dialogue System EMNLP 2022

Global Optimality and Finite Sample Analysis of Softmax Off-Policy Actor Critic under State Distribution Mismatch JMLR 2022

d3rlpy: An Offline Deep Reinforcement Learning Library JMLR 2022

CHAI: A CHatbot AI for Task-Oriented Dialogue with Offline Reinforcement Learning NAACL 2022

You Can’t Count on Luck: Why Decision Transformers and RvS Fail in Stochastic Environments NIPS 2022

On Instrumental Variable Regression for Deep Offline Policy Evaluation JMLR 2022

Stateful Offline Contextual Policy Evaluation and Learning AISTATS 2022

Sample Complexity of Robust Reinforcement Learning with a Generative Model AISTATS 2022

The Curse of Passive Data Collection in Batch Reinforcement Learning AISTATS 2022

Corruption-robust Offline Reinforcement Learning AISTATS 2022