Reinforcement Learning › Methods ›

Offline RL

725 directly classified papers

Papers per year

Papers

Safe Optimal Design with Applications in Off-Policy Learning AISTATS 2022

Offline Goal-Conditioned Reinforcement Learning via $f$-Advantage Regression NIPS 2022

On the Convergence Rate of Off-Policy Policy Optimization Methods with Density-Ratio Correction AISTATS 2022

Offline Reinforcement Learning for Visual Navigation CORL 2022

Generalization with Lossy Affordances: Leveraging Broad Offline Data for Learning Visuomotor Tasks CORL 2022

Efficient and Stable Off-policy Training via Behavior-aware Evolutionary Learning CORL 2022

Offline Reinforcement Learning at Multiple Frequencies CORL 2022

Model-Based Offline Reinforcement Learning with Pessimism-Modulated Dynamics Belief NIPS 2022

Markovian Interference in Experiments NIPS 2022

When does return-conditioned supervised learning work for offline reinforcement learning? NIPS 2022

Conformal Off-Policy Prediction in Contextual Bandits NIPS 2022

Beyond the Return: Off-policy Function Estimation under User-specified Error-measuring Distributions NIPS 2022

Local Metric Learning for Off-Policy Evaluation in Contextual Bandits with Continuous Actions NIPS 2022

Incrementality Bidding via Reinforcement Learning under Mixed and Delayed Rewards NIPS 2022

Offline policy optimization with eligible actions UAI 2022

Case-based off-policy evaluation using prototype learning UAI 2022

ReVar: Strengthening policy evaluation via reduced variance sampling UAI 2022

Offline stochastic shortest path: Learning, evaluation and towards optimality UAI 2022

Mildly Conservative Q-Learning for Offline Reinforcement Learning NIPS 2022

Sustainable Online Reinforcement Learning for Auto-bidding NIPS 2022

Offline Policy Selection under Uncertainty AISTATS 2022

Improved Algorithms for Misspecified Linear Markov Decision Processes AISTATS 2022

Offline Reinforcement Learning with Realizability and Single-policy Concentrability COLT 2022

Offline Reinforcement Learning: Fundamental Barriers for Value Function Approximation COLT 2022

Sample-Efficient Reinforcement Learning in the Presence of Exogenous Information COLT 2022