conftrace_

temporal difference learning

149 papers

Explore in graph

Also known as

TD TD LEARNING TD-LEARNING

Co-occurring keywords

reinforcement learning (4122) policy evaluation (115) function approximation (319) value function (294) markov decision process (788) off-policy learning (227) stochastic approximation (101) linear function approximation (101) policy optimization (630) convergence analysis (394)

Papers

Temporal Difference Learning as Gradient Splitting ICML 2021

Non-asymptotic Convergence of Adam-type Reinforcement Learning Algorithms under Markovian Sampling AAAI 2021

Multi-Agent Reinforcement Learning in Stochastic Networked Systems NIPS 2021

Finite-Sample Analysis of Off-Policy TD-Learning via Generalized Bellman Operators NIPS 2021

On Convergence of Gradient Expected Sarsa(λ) AAAI 2021

Flow Network based Generative Models for Non-Iterative Diverse Candidate Generation NIPS 2021

Learning One Representation to Optimize All Rewards NIPS 2021

Finite Sample Analysis of Average-Reward TD Learning and $Q$-Learning NIPS 2021

Variance-Reduced Off-Policy TDC Learning: Non-Asymptotic Convergence Analysis NIPS 2020

A Local Temporal Difference Code for Distributional Reinforcement Learning NIPS 2020

Successor Features Combine Elements of Model-Free and Model-based Reinforcement Learning JMLR 2020

Can Temporal-Diﬀerence and Q-Learning Learn Representation? A Mean-Field Theory NIPS 2020

A Tale of Two-Timescale Reinforcement Learning with the Tightest Finite-Time Bound AAAI 2020

R-learning in actor-critic model offers a biologically relevant mechanism for sequential decision-making NIPS 2020

Uncorrected Least-Squares Temporal Difference with Lambda-Return AAAI 2020

Clinician-in-the-Loop Decision Making: Reinforcement Learning with Near-Optimal Set-Valued Policies ICML 2020

Reducing Sampling Error in Batch Temporal Difference Learning ICML 2020

Interference and Generalization in Temporal Difference Learning ICML 2020

Decentralized TD Tracking with Linear Function Approximation and its Finite-Time Analysis NIPS 2020

How to Learn a Useful Critic? Model-based Action-Gradient-Estimator Policy Optimization NIPS 2020

Gamma-Models: Generative Temporal Difference Learning for Infinite-Horizon Prediction NIPS 2020

Provably Convergent Two-Timescale Off-Policy Actor-Critic with Function Approximation ICML 2020

Two Time-scale Off-Policy TD Learning: Non-asymptotic Analysis over Markovian Samples NIPS 2019

Finite-Time Analysis of Distributed TD(0) with Linear Function Approximation on Multi-Agent Reinforcement Learning ICML 2019

Characterizing the Exact Behaviors of Temporal Difference Learning Algorithms Using Markov Jump Linear System Theory NIPS 2019