policy evaluation

115 papers

Explore in graph

Also known as

OPE

Co-occurring keywords

reinforcement learning (4122) temporal difference learning (149) value function (294) offline reinforcement learning (492) causal inference (1619) function approximation (319) off-policy learning (227) markov decision process (788) temporal-difference learning (42) linear function approximation (101)

Papers

A Generalized Bootstrap Target for Value-Learning, Efficiently Combining Value and Feature Predictions AAAI 2022

Safe Exploration for Efficient Policy Evaluation and Comparison ICML 2022

NeoRL: A Near Real-World Benchmark for Offline Reinforcement Learning NIPS 2022

Policy Evaluation and Temporal-Difference Learning in Continuous Time and Space: A Martingale Approach JMLR 2022

Robust On-Policy Sampling for Data-Efficient Policy Evaluation in Reinforcement Learning NIPS 2022

Showing Your Offline Reinforcement Learning Work: Online Evaluation Budget Matters ICML 2022

Gradient Temporal Difference with Momentum: Stability and Convergence AAAI 2022

BCORLE($\lambda$): An Offline Reinforcement Learning and Evaluation Framework for Coupons Allocation in E-commerce Market NIPS 2021

You Only Evaluate Once: a Simple Baseline Algorithm for Offline RL CORL 2021

Instabilities of Offline RL with Pre-Trained Neural Representation ICML 2021

Preferential Temporal Difference Learning ICML 2021

Nearly Horizon-Free Offline Reinforcement Learning NIPS 2021

Post-Contextual-Bandit Inference NIPS 2021

Finite-Sample Analysis of Off-Policy TD-Learning via Generalized Bellman Operators NIPS 2021

Non-Asymptotic Analysis for Two Time-scale TDC with General Smooth Function Approximation NIPS 2021

Loop Estimator for Discounted Values in Markov Reward Processes AAAI 2021

MOReL: Model-Based Offline Reinforcement Learning NIPS 2020

SVRG for Policy Evaluation with Fewer Gradient Evaluations IJCAI 2020

Unknown mixing times in apprenticeship and reinforcement learning UAI 2020

Distributionally Robust Policy Evaluation and Learning in Offline Contextual Bandits ICML 2020

Attentive Experience Replay AAAI 2020

Uncorrected Least-Squares Temporal Difference with Lambda-Return AAAI 2020

A Tale of Two-Timescale Reinforcement Learning with the Tightest Finite-Time Bound AAAI 2020

Finite Time Analysis of Linear Two-timescale Stochastic Approximation with Markovian Noise COLT 2020

The Gap Between Model-Based and Model-Free Methods on the Linear Quadratic Regulator: An Asymptotic Viewpoint COLT 2019