temporal difference learning

149 papers

Explore in graph

Also known as

TD TD LEARNING TD-LEARNING LSTD GTD

Co-occurring keywords

reinforcement learning (4122) policy evaluation (115) function approximation (319) value function (294) markov decision process (788) off-policy learning (227) stochastic approximation (101) linear function approximation (101) policy optimization (630) convergence analysis (394)

Papers

The Pitfalls of Regularization in Off-Policy TD Learning NIPS 2022

Experience Replay with Likelihood-free Importance Weights L4DC 2022

A Generalized Bootstrap Target for Value-Learning, Efficiently Combining Value and Feature Predictions AAAI 2022

Adapting to Mixing Time in Stochastic Optimization with Markovian Data ICML 2022

Analysis of a Target-Based Actor-Critic Algorithm with Linear Function Approximation AISTATS 2022

Sample Complexity of Policy-Based Methods under Off-Policy Sampling and Linear Function Approximation AISTATS 2022

Stochastic linear optimization never overfits with quadratically-bounded losses on general data COLT 2022

Deterministic and Discriminative Imitation (D2-Imitation): Revisiting Adversarial Imitation for Sample Efficiency AAAI 2022

Learning Expected Emphatic Traces for Deep RL AAAI 2022

Why Should I Trust You, Bellman? The Bellman Error is a Poor Replacement for Value Error ICML 2022

Temporal Difference Learning for Model Predictive Control ICML 2022

Federated Reinforcement Learning: Linear Speedup Under Markovian Sampling ICML 2022

Gradient Temporal Difference with Momentum: Stability and Convergence AAAI 2022

Learning Dynamics and Generalization in Deep Reinforcement Learning ICML 2022

On the role of overparameterization in off-policy Temporal Difference learning with linear function approximation NIPS 2022

A Unifying Framework of Off-Policy General Value Function Evaluation NIPS 2022

A Generalized Projected Bellman Error for Off-policy Value Estimation in Reinforcement Learning JMLR 2022

Expected Eligibility Traces AAAI 2021

Preferential Temporal Difference Learning ICML 2021

Emphatic Algorithms for Deep Reinforcement Learning ICML 2021

Tightening the Dependence on Horizon in the Sample Complexity of Q-Learning ICML 2021

Sample Complexity Bounds for Two Timescale Value-based Reinforcement Learning Algorithms AISTATS 2021

Loop Estimator for Discounted Values in Markov Reward Processes AAAI 2021

Variance Penalized On-Policy and Off-Policy Actor-Critic AAAI 2021

On the Stability of Random Matrix Product with Markovian Noise: Application to Linear Stochastic Approximation and TD Learning COLT 2021