reward modeling

159 papers

Explore in graph

Also known as

RLHF RM

Co-occurring keywords

large language model (12755) reinforcement learning (4122) reinforcement learning from human feedback (261) reward model (251) preference learning (411) language model alignment (142) human feedback (161) direct preference optimization (317) policy optimization (630) language model (4573)

Papers

2D-DPO: Scaling Direct Preference Optimization with 2-Dimensional Supervision NAACL 2025

Reward Model Perspectives: Whose Opinions Do Reward Models Reward? EMNLP 2025

Graders Should Cheat: Privileged Information Enables Expert-Level Automated Evaluations EMNLP 2025

Beyond Online Sampling: Bridging Offline-to-Online Alignment via Dynamic Data Transformation for LLMs EMNLP 2025

VerIF: Verification Engineering for Reinforcement Learning in Instruction Following EMNLP 2025

VLRMBench: A Comprehensive and Challenging Benchmark for Vision-Language Reward Models ICCV 2025

Think&Cite: Improving Attributed Text Generation with Self-Guided Tree Search and Progress Reward Modeling ACL 2025

In-Dataset Trajectory Return Regularization for Offline Preference-based Reinforcement Learning AAAI 2025

Approximated Variational Bayesian Inverse Reinforcement Learning for Large Language Model Alignment AAAI 2025

Improving Medical Large Vision-Language Models with Abnormal-Aware Feedback ACL 2025

Long-Term Ad Memorability: Understanding & Generating Memorable Ads WACV 2025

Context Filtering with Reward Modeling in Question Answering COLING 2025

CodeTool: Enhancing Programmatic Tool Invocation of LLMs via Process Supervision ACL 2025

Aligning VLM Assistants with Personalized Situated Cognition ACL 2025

Reward Generalization in RLHF: A Topological Perspective ACL 2025

PopAlign: Diversifying Contrasting Patterns for a More Comprehensive Alignment ACL 2025

AceMath: Advancing Frontier Math Reasoning with Post-Training and Reward Modeling ACL 2025

Cross-lingual Transfer of Reward Models in Multilingual Alignment NAACL 2025

DPL: Diverse Preference Learning Without A Reference Model NAACL 2025

Process-Supervised Reward Models for Verifying Clinical Note Generation: A Scalable Approach Guided by Domain Expertise EMNLP 2025

Beyond Correctness: Confidence-Aware Reward Modeling for Enhancing Large Language Model Reasoning EMNLP 2025

Agent-RewardBench: Towards a Unified Benchmark for Reward Modeling across Perception, Planning, and Safety in Real-World Multimodal Agents ACL 2025

Improving Reward Models with Synthetic Critiques NAACL 2025

Prior Prompt Engineering for Reinforcement Fine-Tuning EMNLP 2025

Mutual-Taught for Co-adapting Policy and Reward Models ACL 2025