reinforcement learning

4122 papers

Explore in graph

Also known as

RLVR HARL GRPO RL PPO REINFORCE RFT DRL RL NULL LQR RLHF

Co-occurring keywords

large language model (12755) policy learning (699) markov decision process (788) policy gradient (518) policy optimization (630) deep reinforcement learning (903) multi-agent system (1743) imitation learning (741) regret bound (1918) language model (4573)

Papers

TenGAN: Pure Transformer Encoders Make an Efficient Discrete GAN for De Novo Molecular Generation AISTATS 2024

Towards a Zero-Data, Controllable, Adaptive Dialog System COLING 2024

Enhancing Reinforcement Learning with Label-Sensitive Reward for Natural Language Understanding ACL 2024

BPO: Staying Close to the Behavior LLM Creates Better Online LLM Alignment EMNLP 2024

Occupancy-based Policy Gradient: Estimation, Convergence, and Optimality NIPS 2024

MoleculeQA: A Dataset to Evaluate Factual Accuracy in Molecular Comprehension EMNLP 2024

Advancing Abductive Reasoning in Knowledge Graphs through Complex Logical Hypothesis Generation ACL 2024

Near-Optimal Distributionally Robust Reinforcement Learning with General $L_p$ Norms NIPS 2024

Probing the Multi-turn Planning Capabilities of LLMs via 20 Question Games ACL 2024

A Transfer Approach Using Graph Neural Networks in Deep Reinforcement Learning AAAI 2024

Building Minimal and Reusable Causal State Abstractions for Reinforcement Learning AAAI 2024

Learning Autonomous Driving Tasks via Human Feedbacks with Large Language Models EMNLP 2024

Online Restless Multi-Armed Bandits with Long-Term Fairness Constraints AAAI 2024

ACAMDA: Improving Data Efficiency in Reinforcement Learning through Guided Counterfactual Data Augmentation AAAI 2024

World Models for General Surgical Grasping RSS 2024

Reinforcement Learning as a Parsimonious Alternative to Prediction Cascades: A Case Study on Image Segmentation AAAI 2024

Optimal Attack and Defense for Reinforcement Learning AAAI 2024

Text Diffusion with Reinforced Conditioning AAAI 2024

Unsupervised Training Sequence Design: Efficient and Generalizable Agent Training AAAI 2024

Enhancing Chess Reinforcement Learning with Graph Representation NIPS 2024

Learning Uncertainty-Aware Temporally-Extended Actions AAAI 2024

Personalized Reinforcement Learning with a Budget of Policies AAAI 2024

Transition Constrained Bayesian Optimization via Markov Decision Processes NIPS 2024

Catastrophic Goodhart: regularizing RLHF with KL divergence does not mitigate heavy-tailed reward misspecification NIPS 2024

Continual Reinforcement Learning for Controlled Text Generation COLING 2024