Reinforcement Learning › Methods ›

Offline RL

725 directly classified papers

Papers per year

Papers

Learning from Good Trajectories in Offline Multi-Agent Reinforcement Learning AAAI 2023

Safe Policy Improvement for POMDPs via Finite-State Controllers AAAI 2023

Multi-Horizon Learning in Procedurally-Generated Environments for Off-Policy Reinforcement Learning (Student Abstract) AAAI 2023

Model-Based Offline Weighted Policy Optimization (Student Abstract) AAAI 2023

Distributed Offline Policy Optimization Over Batch Data AISTATS 2023

Scalable and Safe Remediation of Defective Actions in Self-Learning Conversational Systems ACL 2023

Towards Safe Mechanical Ventilation Treatment Using Deep Offline Reinforcement Learning AAAI 2023

Fast Offline Policy Optimization for Large Scale Recommendation AAAI 2023

Offline Quantum Reinforcement Learning in a Conservative Manner AAAI 2023

SafeDICE: Offline Safe Imitation Learning with Non-Preferred Demonstrations NIPS 2023

Train Once, Get a Family: State-Adaptive Balances for Offline-to-Online Reinforcement Learning NIPS 2023

No-Regret Online Reinforcement Learning with Adversarial Losses and Transitions NIPS 2023

Offline Minimax Soft-Q-learning Under Realizability and Partial Coverage NIPS 2023

Asymptotically Unbiased Off-Policy Policy Evaluation when Reusing Old Data in Nonstationary Environments AISTATS 2023

Continuous-Time Decision Transformer for Healthcare Applications AISTATS 2023

Distributionally Robust Policy Gradient for Offline Contextual Bandits AISTATS 2023

Expansive Latent Planning for Sparse Reward Offline Reinforcement Learning CORL 2023

Can Active Sampling Reduce Causal Confusion in Offline Reinforcement Learning? CLEAR 2023

Large Decision Models IJCAI 2023

Pessimistic Model Selection for Offline Deep Reinforcement Learning UAI 2023

A trajectory is worth three sentences: multimodal transformer for offline reinforcement learning UAI 2023

On the Relation between Policy Improvement and Off-Policy Minimum-Variance Policy Evaluation UAI 2023

LAPO: Latent-Variable Advantage-Weighted Policy Optimization for Offline Reinforcement Learning NIPS 2022

When to Trust Your Simulator: Dynamics-Aware Hybrid Offline-and-Online Reinforcement Learning NIPS 2022

Bootstrapped Transformer for Offline Reinforcement Learning NIPS 2022