reinforcement learning

4122 papers

Explore in graph

Also known as

RLVR HARL GRPO RL PPO REINFORCE RFT DRL RL NULL LQR RLHF

Co-occurring keywords

large language model (12755) policy learning (699) markov decision process (788) policy gradient (518) policy optimization (630) deep reinforcement learning (903) multi-agent system (1743) imitation learning (741) regret bound (1918) language model (4573)

Papers

Exploiting Careful Design of SVM Solution for Aspect-term Sentiment Analysis EMNLP 2024

A Fairness-Driven Method for Learning Human-Compatible Negotiation Strategies EMNLP 2024

Adaptive Important Region Selection with Reinforced Hierarchical Search for Dense Object Detection NIPS 2024

Diffusion for World Modeling: Visual Details Matter in Atari NIPS 2024

ODRL: A Benchmark for Off-Dynamics Reinforcement Learning NIPS 2024

Mitigating Partial Observability in Sequential Decision Processes via the Lambda Discrepancy NIPS 2024

Distributionally Robust Off-Dynamics Reinforcement Learning: Provable Efficiency with Linear Function Approximation AISTATS 2024

Adaptive Exploration for Data-Efficient General Value Function Evaluations NIPS 2024

A Bayesian Learning Algorithm for Unknown Zero-sum Stochastic Games with an Arbitrary Opponent AISTATS 2024

OptEx: Expediting First-Order Optimization with Approximately Parallelized Iterations NIPS 2024

Stress-Testing Capability Elicitation With Password-Locked Models NIPS 2024

No Representation, No Trust: Connecting Representation, Collapse, and Trust Issues in PPO NIPS 2024

Mitigating Open-Vocabulary Caption Hallucinations EMNLP 2024

Coffee-Gym: An Environment for Evaluating and Improving Natural Language Feedback on Erroneous Code EMNLP 2024

ABLE: Personalized Disability Support with Politeness and Empathy Integration EMNLP 2024

Local Linearity: the Key for No-regret Reinforcement Learning in Continuous MDPs NIPS 2024

Contrastive Policy Gradient: Aligning LLMs on sequence-level scores in a supervised-friendly fashion EMNLP 2024

Learning to Discuss Strategically: A Case Study on One Night Ultimate Werewolf NIPS 2024

A General Theoretical Paradigm to Understand Learning from Human Preferences AISTATS 2024

Overcoming the Sim-to-Real Gap: Leveraging Simulation to Learn to Explore for Real-World RL NIPS 2024

Rethinking the Role of Proxy Rewards in Language Model Alignment EMNLP 2024

ToolPlanner: A Tool Augmented LLM for Multi Granularity Instructions with Path Planning and Feedback EMNLP 2024

A Structure-Aware Framework for Learning Device Placements on Computation Graphs NIPS 2024

RL in Latent MDPs is Tractable: Online Guarantees via Off-Policy Evaluation NIPS 2024

Autoregressive Multi-trait Essay Scoring via Reinforcement Learning with Scoring-aware Multiple Rewards EMNLP 2024