reinforcement learning

4122 papers

Explore in graph

Also known as

RLVR HARL GRPO RL PPO REINFORCE RFT DRL RL NULL LQR RLHF

Co-occurring keywords

large language model (12755) policy learning (699) markov decision process (788) policy gradient (518) policy optimization (630) deep reinforcement learning (903) multi-agent system (1743) imitation learning (741) regret bound (1918) language model (4573)

Papers

Step-level Value Preference Optimization for Mathematical Reasoning EMNLP 2024

Rethinking the Role of Proxy Rewards in Language Model Alignment EMNLP 2024

Amnesia as a Catalyst for Enhancing Black Box Pixel Attacks in Image Classification and Object Detection NIPS 2024

ToolPlanner: A Tool Augmented LLM for Multi Granularity Instructions with Path Planning and Feedback EMNLP 2024

Autoregressive Multi-trait Essay Scoring via Reinforcement Learning with Scoring-aware Multiple Rewards EMNLP 2024

Weak Reward Model Transforms Generative Models into Robust Causal Event Extraction Systems EMNLP 2024

CE-NAS: An End-to-End Carbon-Efficient Neural Architecture Search Framework NIPS 2024

AuctionNet: A Novel Benchmark for Decision-Making in Large-Scale Games NIPS 2024

A Nearly Optimal and Low-Switching Algorithm for Reinforcement Learning with General Function Approximation NIPS 2024

Excluding the Irrelevant: Focusing Reinforcement Learning through Continuous Action Masking NIPS 2024

If CLIP Could Talk: Understanding Vision-Language Model Representations Through Their Preferred Concept Descriptions EMNLP 2024

Learning to Retrieve Iteratively for In-Context Learning EMNLP 2024

F2RL: Factuality and Faithfulness Reinforcement Learning Framework for Claim-Guided Evidence-Supported Counterspeech Generation EMNLP 2024

Beyond One-Preference-Fits-All Alignment: Multi-Objective Direct Preference Optimization ACL 2024

Learning to Trust Your Feelings: Leveraging Self-awareness in LLMs for Hallucination Mitigation ACL 2024

Using RL to Identify Divisive Perspectives Improves LLMs Abilities to Identify Communities on Social Media EMNLP 2024

LLM-AutoDA: Large Language Model-Driven Automatic Data Augmentation for Long-tailed Problems NIPS 2024

A Grounded Preference Model for LLM Alignment ACL 2024

P-TA: Using Proximal Policy Optimization to Enhance Tabular Data Augmentation via Large Language Models ACL 2024

Prompt-Based Length Controlled Generation with Multiple Control Types ACL 2024

AutoPRM: Automating Procedural Supervision for Multi-Step Reasoning via Controllable Question Decomposition NAACL 2024

A Critical Evaluation of AI Feedback for Aligning Large Language Models NIPS 2024

Teaching Language Models to Self-Improve by Learning from Language Feedback ACL 2024

SOTOPIA-π: Interactive Learning of Socially Intelligent Language Agents ACL 2024

Tracking object positions in reinforcement learning: A metric for keypoint detection L4DC 2024