policy evaluation

115 papers

Explore in graph

Also known as

OPE

Co-occurring keywords

reinforcement learning (4122) temporal difference learning (149) value function (294) offline reinforcement learning (492) causal inference (1619) function approximation (319) off-policy learning (227) markov decision process (788) temporal-difference learning (42) linear function approximation (101)

Papers

Optimal and Fair Encouragement Policy Evaluation and Learning NIPS 2023

Statistical Inference on Multi-armed Bandits with Delayed Feedback ICML 2023

Policy Evaluation in Distributional LQR L4DC 2023

Frustratingly Easy Regularization on Representation Can Boost Deep Reinforcement Learning CVPR 2023

Simplified Risk-aware Decision Making with Belief-dependent Rewards in Partially Observable Domains (Extended Abstract) IJCAI 2023

AllSim: Simulating and Benchmarking Resource Allocation Policies in Multi-User Systems NIPS 2023

Scalable Real-Time Recurrent Learning Using Columnar-Constructive Networks JMLR 2023

Kernel Conditional Moment Constraints for Confounding Robust Inference AISTATS 2023

Provably Fast Convergence of Independent Natural Policy Gradient for Markov Potential Games NIPS 2023

Revisiting Bellman Errors for Offline Model Selection ICML 2023

The Statistical Benefits of Quantile Temporal-Difference Learning for Value Estimation ICML 2023

Bootstrapped Representations in Reinforcement Learning ICML 2023

Improved Policy Evaluation for Randomized Trials of Algorithmic Resource Allocation ICML 2023

Truncating Trajectories in Monte Carlo Policy Evaluation: an Adaptive Approach NIPS 2023

Managing Temporal Resolution in Continuous Value Estimation: A Fundamental Trade-off NIPS 2023

Learning Good State and Action Representations for Markov Decision Process via Tensor Decomposition JMLR 2023

Why Target Networks Stabilise Temporal Difference Methods ICML 2023

A Generalized Bootstrap Target for Value-Learning, Efficiently Combining Value and Feature Predictions AAAI 2022

Policy Evaluation and Temporal-Difference Learning in Continuous Time and Space: A Martingale Approach JMLR 2022

Offline stochastic shortest path: Learning, evaluation and towards optimality UAI 2022

On the Assumptions of Synthetic Control Methods AISTATS 2022

Offline Policy Selection under Uncertainty AISTATS 2022

Sample Complexity of Policy-Based Methods under Off-Policy Sampling and Linear Function Approximation AISTATS 2022

Finite Sample Analysis of Mean-Volatility Actor-Critic for Risk-Averse Reinforcement Learning AISTATS 2022

Optimal and instance-dependent guarantees for Markovian linear stochastic approximation COLT 2022