reinforcement learning

4122 papers

Explore in graph

Also known as

RLVR HARL GRPO RL PPO REINFORCE RFT DRL RL NULL LQR RLHF

Co-occurring keywords

large language model (12755) policy learning (699) markov decision process (788) policy gradient (518) policy optimization (630) deep reinforcement learning (903) multi-agent system (1743) imitation learning (741) regret bound (1918) language model (4573)

Papers

DiffPhyCon: A Generative Approach to Control Complex Physical Systems NIPS 2024

Bounded robustness in reinforcement learning via lexicographic objectives L4DC 2024

A large deviations perspective on policy gradient algorithms L4DC 2024

Real-Time Recurrent Learning using Trace Units in Reinforcement Learning NIPS 2024

Abstract Reward Processes: Leveraging State Abstraction for Consistent Off-Policy Evaluation NIPS 2024

On the uniqueness of solution for the Bellman equation of LTL objectives L4DC 2024

Reinforced Cross-Domain Knowledge Distillation on Time Series Data NIPS 2024

Kernel-Based Function Approximation for Average Reward Reinforcement Learning: An Optimist No-Regret Algorithm NIPS 2024

First-Explore, then Exploit: Meta-Learning to Solve Hard Exploration-Exploitation Trade-Offs NIPS 2024

Diffusion for World Modeling: Visual Details Matter in Atari NIPS 2024

Self-Play Fine-tuning of Diffusion Models for Text-to-image Generation NIPS 2024

Beyond One-Preference-Fits-All Alignment: Multi-Objective Direct Preference Optimization ACL 2024

Amortized Active Causal Induction with Deep Reinforcement Learning NIPS 2024

Text-Aware Diffusion for Policy Learning NIPS 2024

Goal Conditioned Reinforcement Learning for Photo Finishing Tuning NIPS 2024

Learning to Trust Your Feelings: Leveraging Self-awareness in LLMs for Hallucination Mitigation ACL 2024

Do's and Don'ts: Learning Desirable Skills with Instruction Videos NIPS 2024

Online Control with Adversarial Disturbance for Continuous-time Linear Systems NIPS 2024

Discovering Creative Behaviors through DUPLEX: Diverse Universal Features for Policy Exploration NIPS 2024

Learning Successor Features the Simple Way NIPS 2024

Predicting Future Actions of Reinforcement Learning Agents NIPS 2024

Prompt-Based Length Controlled Generation with Multiple Control Types ACL 2024

Towards Aligning Language Models with Textual Feedback EMNLP 2024

Diffusion-based Reinforcement Learning via Q-weighted Variational Policy Optimization NIPS 2024

Teaching Language Models to Self-Improve by Learning from Language Feedback ACL 2024