off-policy evaluation

144 papers

Explore in graph

Also known as

OPE

Co-occurring keywords

reinforcement learning (4122) importance sampling (316) contextual bandit (379) causal inference (1619) markov decision process (788) variance reduction (520) doubly robust estimator (37) offline reinforcement learning (492) confidence interval (145) doubly robust (32)

Papers

Off-Policy Evaluation for Large Action Spaces via Embeddings ICML 2022

Off-Policy Evaluation with Policy-Dependent Optimization Response NIPS 2022

Off-Policy Evaluation with Deficient Support Using Side Information NIPS 2022

Off-Policy Evaluation for Action-Dependent Non-stationary Environments NIPS 2022

Debiasing Samples from Online Learning Using Bootstrap AISTATS 2022

Data poisoning attacks on off-policy policy evaluation methods UAI 2022

Scalable and Robust Self-Learning for Skill Routing in Large-Scale Conversational AI Systems NAACL 2022

Markovian Interference in Experiments NIPS 2022

Local Metric Learning for Off-Policy Evaluation in Contextual Bandits with Continuous Actions NIPS 2022

Doubly Robust Distributionally Robust Off-Policy Evaluation and Learning ICML 2022

A Minimax Learning Approach to Off-Policy Evaluation in Confounded Partially Observable Markov Decision Processes ICML 2022

Off-Policy Fitted Q-Evaluation with Differentiable Function Approximators: Z-Estimation and Inference Theory ICML 2022

Offline RL Without Off-Policy Evaluation NIPS 2021

Confident Off-Policy Evaluation and Selection through Self-Normalized Importance Weighting AISTATS 2021

Model-Free and Model-Based Policy Evaluation when Causality is Uncertain ICML 2021

A Deep Reinforcement Learning Approach to Marginalized Importance Sampling with the Successor Representation ICML 2021

Sparse Feature Selection Makes Batch Reinforcement Learning More Sample Efficient ICML 2021

Bootstrapping Fitted Q-Evaluation for Off-Policy Inference ICML 2021

Optimal Off-Policy Evaluation from Multiple Logging Policies ICML 2021

State Relevance for Off-Policy Evaluation ICML 2021

Average-Reward Off-Policy Policy Evaluation with Function Approximation ICML 2021

Towards Automatic Evaluation of Dialog Systems: A Model-Free Off-Policy Evaluation Approach EMNLP 2021

Minimax Model Learning AISTATS 2021

Off-policy Evaluation in Infinite-Horizon Reinforcement Learning with Latent Confounders AISTATS 2021

Risk Bounds and Rademacher Complexity in Batch Reinforcement Learning ICML 2021