reinforcement learning

4122 papers

Explore in graph

Also known as

RLVR HARL GRPO RL PPO REINFORCE RFT DRL RL NULL LQR RLHF

Co-occurring keywords

large language model (12755) policy learning (699) markov decision process (788) policy gradient (518) policy optimization (630) deep reinforcement learning (903) multi-agent system (1743) imitation learning (741) regret bound (1918) language model (4573)

Papers

Improving Existing Fault Recovery Policies NIPS 2009

A Generalized Natural Actor-Critic Algorithm NIPS 2009

RL-Glue: Language-Independent Software for Reinforcement-Learning Experiments JMLR 2009

Hebbian Learning of Bayes Optimal Decisions NIPS 2008

Signal-to-Noise Ratio Analysis of Policy Gradient Algorithms NIPS 2008

Optimization on a Budget: A Reinforcement Learning Approach NIPS 2008

Near-optimal Regret Bounds for Reinforcement Learning NIPS 2008

A computational model of hippocampal function in trace conditioning NIPS 2008

Multi-resolution Exploration in Continuous Spaces NIPS 2008

Temporal Dynamics of Cognitive Control NIPS 2008

Regularized Policy Iteration NIPS 2008

Learning to Use Working Memory in Partially Observable Environments through Dopaminergic Reinforcement NIPS 2008

Accelerated Neural Evolution through Cooperatively Coevolved Synapses JMLR 2008

Goal-directed decision making in prefrontal cortex: a computational framework NIPS 2008

Biasing Approximate Dynamic Programming with a Lower Discount Factor NIPS 2008

Temporal Difference Based Actor Critic Learning - Convergence and Neural Implementation NIPS 2008

On the asymptotic equivalence between differential Hebbian and temporal difference learning using a local third factor NIPS 2008

Policy Search for Motor Primitives in Robotics NIPS 2008

Stress, noradrenaline, and realistic prediction of mouse behaviour using reinforcement learning NIPS 2008

Bounding Performance Loss in Approximate MDP Homomorphisms NIPS 2008

Particle Filter-based Policy Gradient in POMDPs NIPS 2008

Receding Horizon Differential Dynamic Programming NIPS 2007

Hippocampal Contributions to Control: The Third Way NIPS 2007

Reinforcement Learning in Continuous Action Spaces through Sequential Monte Carlo Methods NIPS 2007

Managing Power Consumption and Performance of Computing Systems Using Reinforcement Learning NIPS 2007