reinforcement learning

4122 papers

Explore in graph

Also known as

RLVR HARL GRPO RL PPO REINFORCE RFT DRL RL NULL LQR RLHF

Co-occurring keywords

large language model (12755) policy learning (699) markov decision process (788) policy gradient (518) policy optimization (630) deep reinforcement learning (903) multi-agent system (1743) imitation learning (741) regret bound (1918) language model (4573)

Papers

DiffAIL: Diffusion Adversarial Imitation Learning AAAI 2024

MANDREL: Modular Reinforcement Learning Pipelines for Material Discovery AAAI 2024

Relative Policy-Transition Optimization for Fast Policy Transfer AAAI 2024

An Automatic Prompt Generation System for Tabular Data Tasks NAACL 2024

Distributionally Robust Off-Dynamics Reinforcement Learning: Provable Efficiency with Linear Function Approximation AISTATS 2024

AdaRefiner: Refining Decisions of Language Models with Adaptive Feedback NAACL 2024

MIM-Reasoner: Learning with Theoretical Guarantees for Multiplex Influence Maximization AISTATS 2024

Towards Healthy AI: Large Language Models Need Therapists Too NAACL 2024

Towards Achieving Sub-linear Regret and Hard Constraint Violation in Model-free RL AISTATS 2024

Multi-world Model in Continual Reinforcement Learning AAAI 2024

Improved Algorithm for Adversarial Linear Mixture MDPs with Bandit Feedback and Unknown Transition AISTATS 2024

DGPO: Discovering Multiple Strategies with Diversity-Guided Policy Optimization AAAI 2024

Policy Evaluation for Reinforcement Learning from Human Feedback: A Sample Complexity Analysis AISTATS 2024

Resilient Constrained Reinforcement Learning AISTATS 2024

A Bayesian Learning Algorithm for Unknown Zero-sum Stochastic Games with an Arbitrary Opponent AISTATS 2024

Horizon-Free and Instance-Dependent Regret Bounds for Reinforcement Learning with General Function Approximation AISTATS 2024

On learning history-based policies for controlling Markov decision processes AISTATS 2024

Risk-Conditioned Reinforcement Learning: A Generalized Approach for Adapting to Varying Risk Measures AAAI 2024

Dynamic Policy-Driven Adaptive Multi-Instance Learning for Whole Slide Image Classification CVPR 2024

OVD-Explorer: Optimism Should Not Be the Sole Pursuit of Exploration in Noisy Environments AAAI 2024

RL-SeqISP: Reinforcement Learning-Based Sequential Optimization for Image Signal Processing AAAI 2024

Using Reinforcement Learning to Iteratively Construct Road Networks from Satellite Images and GPS Data AAAI 2024

Discerning Temporal Difference Learning AAAI 2024

The CoachAI Badminton Environment: A Novel Reinforcement Learning Environment with Realistic Opponents (Student Abstract) AAAI 2024

Beyond Expected Return: Accounting for Policy Reproducibility When Evaluating Reinforcement Learning Algorithms AAAI 2024