reward modeling

159 papers

Explore in graph

Also known as

RLHF RM

Co-occurring keywords

large language model (12755) reinforcement learning (4122) reinforcement learning from human feedback (261) reward model (251) preference learning (411) language model alignment (142) human feedback (161) direct preference optimization (317) policy optimization (630) language model (4573)

Papers

SparsePO: Controlling Preference Alignment of LLMs via Sparse Token Masks EMNLP 2025

CPO: Addressing Reward Ambiguity in Role-playing Dialogue via Comparative Policy Optimization EMNLP 2025

Assess and Prompt: A Generative RL Framework for Improving Engagement in Online Mental Health Communities EMNLP 2025

Dialogue Is Not Enough to Make a Communicative BabyLM (But Neither Is Developmentally Inspired Reinforcement Learning) EMNLP 2025

From General Reward to Targeted Reward: Improving Open-ended Long-context Generation Models EMNLP 2025

A Comprehensive Survey on Learning from Rewards for Large Language Models: Reward Models and Learning Strategies EMNLP 2025

In-Dataset Trajectory Return Regularization for Offline Preference-based Reinforcement Learning AAAI 2025

LEGEND: Leveraging Representation Engineering to Annotate Safety Margin for Preference Datasets AAAI 2025

Rethinking Diverse Human Preference Learning through Principal Component Analysis ACL 2025

Hybrid Preferences: Learning to Route Instances for Human vs. AI Feedback ACL 2025

LLMSR@XLLM25: A Language Model-Based Pipeline for Structured Reasoning Data Construction ACL 2025

Reward Fine-Tuning Two-Step Diffusion Models via Learning Differentiable Latent-Space Surrogate Reward CVPR 2025

DORM: Preference Data Weights Optimization for Reward Modeling in LLM Alignment EMNLP 2025

Embedding Domain Knowledge for Large Language Models via Reinforcement Learning from Augmented Generation EMNLP 2025

Mixing Inference-time Experts for Enhancing LLM Reasoning EMNLP 2025

CAPO: Confidence Aware Preference Optimization Learning for Multilingual Preferences AACL 2025

Reflective Verbal Reward Design for Pluralistic Alignment IJCAI 2025

EditGRPO: Reinforcement Learning with Post -Rollout Edits for Clinically Accurate Chest X-Ray Report Generation AACL 2025

ALaRM: Align Language Models via Hierarchical Rewards Modeling ACL 2024

Don’t Forget Your Reward Values: Language Model Alignment via Value-based Calibration EMNLP 2024

PopALM: Popularity-Aligned Language Models for Social Media Trendy Response Prediction COLING 2024

Aligning as Debiasing: Causality-Aware Alignment via Reinforcement Learning with Interventional Feedback NAACL 2024

Detecting and Preventing Hallucinations in Large Vision Language Models AAAI 2024

Improving Context-Aware Preference Modeling for Language Models NIPS 2024

Mission Impossible: A Statistical Perspective on Jailbreaking LLMs NIPS 2024