conftrace_

← Learning Types

Machine Learning › Learning Types ›

Reinforcement Learning

2,944 papers

Papers per year

1

11

18

23

14

22

24

34

26

24

14

23

79

182

255

284

333

319

315

457

419

67

'10

'15

'20

'25

Papers

A Unifying Perspective of Parametric Policy Search Methods for Markov Decision Processes NIPS 2012

On-line Reinforcement Learning Using Incremental Kernel-Based Stochastic Factorization NIPS 2012

Regularized Off-Policy TD-Learning NIPS 2012

Symbolic Dynamic Programming for Continuous State and Observation POMDPs NIPS 2012

Efficient Bayes-Adaptive Reinforcement Learning using Sample-Based Search NIPS 2012

Learning Partially Observable Models Using Temporally Abstract Decision Trees NIPS 2012

Bayesian Hierarchical Reinforcement Learning NIPS 2012

Cost-Sensitive Exploration in Bayesian Reinforcement Learning NIPS 2012

Learned Prioritization for Trading Off Accuracy and Speed NIPS 2012

Hierarchical Optimistic Region Selection driven by Curiosity NIPS 2012

Trajectory-Based Short-Sighted Probabilistic Planning NIPS 2012

On the Use of Non-Stationary Policies for Stationary Infinite-Horizon Markov Decision Processes NIPS 2012

Exploration in Model-based Reinforcement Learning by Empirically Estimating Learning Progress NIPS 2012

Value Pursuit Iteration NIPS 2012

Sketch-Based Linear Value Function Approximation NIPS 2012

Tractable Objectives for Robust Policy Optimization NIPS 2012

Robustness and risk-sensitivity in Markov decision processes NIPS 2012

Risk Aversion in Markov Decision Processes via Near Optimal Chernoff Bounds NIPS 2012

Online Regret Bounds for Undiscounted Continuous Reinforcement Learning NIPS 2012

Weighted Likelihood Policy Search with Model Selection NIPS 2012

A Stochastic Bandit Algorithm for Scratch Games ACML 2012

Contextual Bandit Learning with Predictable Rewards AISTATS 2012

On Average Reward Policy Evaluation in Infinite-State Partially Observable Systems AISTATS 2012

On Bayesian Upper Confidence Bounds for Bandit Problems AISTATS 2012

Analysis of Thompson Sampling for the Multi-armed Bandit Problem COLT 2012