Reinforcement Learning › Methods ›

Deep RL

3861 directly classified papers

Papers per year

Papers

SPO: Sequential Monte Carlo Policy Optimisation NIPS 2024

On the Role of Information Structure in Reinforcement Learning for Partially-Observable Sequential Teams and Games NIPS 2024

C-GAIL: Stabilizing Generative Adversarial Imitation Learning with Control Theory NIPS 2024

Diffusion Policies Creating a Trust Region for Offline Reinforcement Learning NIPS 2024

Learning to Control Camera Exposure via Reinforcement Learning CVPR 2024

ReCoRe: Regularized Contrastive Representation Learning of World Model CVPR 2024

Versatile Navigation Under Partial Observability via Value-guided Diffusion Policy CVPR 2024

Speculative Monte-Carlo Tree Search NIPS 2024

ReST-MCTS*: LLM Self-Training via Process Reward Guided Tree Search NIPS 2024

Mitigating Partial Observability in Sequential Decision Processes via the Lambda Discrepancy NIPS 2024

Mimicking To Dominate: Imitation Learning Strategies for Success in Multiagent Games NIPS 2024

Regularizing Hidden States Enables Learning Generalizable Reward Model for LLMs NIPS 2024

A Nearly Optimal and Low-Switching Algorithm for Reinforcement Learning with General Function Approximation NIPS 2024

QGym: Scalable Simulation and Benchmarking of Queuing Network Controllers NIPS 2024

FactorSim: Generative Simulation via Factorized Representation NIPS 2024

Optimizing Language Models with Fair and Stable Reward Composition in Reinforcement Learning EMNLP 2024

REBEL: Reinforcement Learning via Regressing Relative Rewards NIPS 2024

Learning Embeddings for Sequential Tasks Using Population of Agents IJCAI 2024

Online Learning with Off-Policy Feedback in Adversarial MDPs IJCAI 2024

Enhancing Robustness in Deep Reinforcement Learning: A Lyapunov Exponent Approach NIPS 2024

Integrating Neural Pathways for Learning in Deep Reinforcement Learning Models AAAI 2024

Exploiting the Replay Memory Before Exploring the Environment: Enhancing Reinforcement Learning Through Empirical MDP Iteration NIPS 2024

Online Iterative Reinforcement Learning from Human Feedback with General Preference Model NIPS 2024

The CoachAI Badminton Environment: A Novel Reinforcement Learning Environment with Realistic Opponents (Student Abstract) AAAI 2024

The surprising efficiency of temporal difference learning for rare event prediction NIPS 2024