reinforcement learning

4122 papers

Explore in graph

Also known as

RLVR HARL GRPO RL PPO REINFORCE RFT DRL RL NULL LQR RLHF

Co-occurring keywords

large language model (12755) policy learning (699) markov decision process (788) policy gradient (518) policy optimization (630) deep reinforcement learning (903) multi-agent system (1743) imitation learning (741) regret bound (1918) language model (4573)

Papers

Exploiting the Replay Memory Before Exploring the Environment: Enhancing Reinforcement Learning Through Empirical MDP Iteration NIPS 2024

A Doubly Robust Approach to Sparse Reinforcement Learning AISTATS 2024

FactorSim: Generative Simulation via Factorized Representation NIPS 2024

BAMBINO-LM: (Bilingual-)Human-Inspired Continual Pre-training of BabyLM ACL 2024

World Models for General Surgical Grasping RSS 2024

Mimicking To Dominate: Imitation Learning Strategies for Success in Multiagent Games NIPS 2024

A large deviations perspective on policy gradient algorithms L4DC 2024

TenGAN: Pure Transformer Encoders Make an Efficient Discrete GAN for De Novo Molecular Generation AISTATS 2024

A Transfer Approach Using Graph Neural Networks in Deep Reinforcement Learning AAAI 2024

Building Minimal and Reusable Causal State Abstractions for Reinforcement Learning AAAI 2024

Online Restless Multi-Armed Bandits with Long-Term Fairness Constraints AAAI 2024

ACAMDA: Improving Data Efficiency in Reinforcement Learning through Guided Counterfactual Data Augmentation AAAI 2024

Reinforcement Learning as a Parsimonious Alternative to Prediction Cascades: A Case Study on Image Segmentation AAAI 2024

Optimal Attack and Defense for Reinforcement Learning AAAI 2024

Text Diffusion with Reinforced Conditioning AAAI 2024

Unsupervised Training Sequence Design: Efficient and Generalizable Agent Training AAAI 2024

Mitigating Partial Observability in Sequential Decision Processes via the Lambda Discrepancy NIPS 2024

Learning Uncertainty-Aware Temporally-Extended Actions AAAI 2024

Personalized Reinforcement Learning with a Budget of Policies AAAI 2024

Transition Constrained Bayesian Optimization via Markov Decision Processes NIPS 2024

Efficient skill acquisition for insertion tasks in obstructed environments L4DC 2024

Adversarial Preference Optimization: Enhancing Your Alignment via RM-LLM Game ACL 2024

PPO-Clip Attains Global Optimality: Towards Deeper Understandings of Clipping AAAI 2024

Get a Head Start: On-Demand Pedagogical Policy Selection in Intelligent Tutoring AAAI 2024

Peer Learning: Learning Complex Policies in Groups from Scratch via Action Recommendations AAAI 2024