reinforcement learning

4122 papers

Explore in graph

Also known as

RLVR HARL GRPO RL PPO REINFORCE RFT DRL RL NULL LQR RLHF

Co-occurring keywords

large language model (12755) policy learning (699) markov decision process (788) policy gradient (518) policy optimization (630) deep reinforcement learning (903) multi-agent system (1743) imitation learning (741) regret bound (1918) language model (4573)

Papers

Incremental Natural Actor-Critic Algorithms NIPS 2007

Temporal Difference Updating without a Learning Rate NIPS 2007

Fitted Q-iteration in continuous action-space MDPs NIPS 2007

Bayesian Policy Learning with Trans-Dimensional MCMC NIPS 2007

Optimistic Linear Programming gives Logarithmic Regret for Irreducible MDPs NIPS 2007

Exponential Family Predictive Representations of State NIPS 2007

Hierarchical Apprenticeship Learning with Application to Quadruped Locomotion NIPS 2007

Random Sampling of States in Dynamic Programming NIPS 2007

Stable Dual Dynamic Programming NIPS 2007

Scan Strategies for Meteorological Radars NIPS 2007

Linearly-solvable Markov decision problems NIPS 2006

Bayesian Policy Gradient Algorithms NIPS 2006

Action Elimination and Stopping Conditions for the Multi-Armed Bandit and Reinforcement Learning Problems JMLR 2006

Effects of Stress and Genotype on Meta-parameter Dynamics in Reinforcement Learning NIPS 2006

Logarithmic Online Regret Bounds for Undiscounted Reinforcement Learning NIPS 2006

An Application of Reinforcement Learning to Aerobatic Helicopter Flight NIPS 2006

The Robustness-Performance Tradeoff in Markov Decision Processes NIPS 2006

Natural Actor-Critic for Road Traffic Optimisation NIPS 2006

iLSTD: Eligibility Traces and Convergence Analysis NIPS 2006

Sample Complexity of Policy Search with Known Dynamics NIPS 2006

Learning Operational Space Control RSS 2006

Learning Rates for Q-learning JMLR 2003