reward modeling

159 papers

Explore in graph

Also known as

RLHF RM

Co-occurring keywords

large language model (12755) reinforcement learning (4122) reinforcement learning from human feedback (261) reward model (251) preference learning (411) language model alignment (142) human feedback (161) direct preference optimization (317) policy optimization (630) language model (4573)

Papers

CultureRL: Internalizing Cultural Principles in Large Language Models via Norm-Driven Reinforcement Learning AAAI 2026

Learning Multilingual Agentic Policy to Control Sycophancy EACL 2026

VerifyBench: A Systematic Benchmark for Evaluating Reasoning Verifiers Across Domains AAAI 2026

Duplex Rewards Optimization for Test-Time Composed Image Retrieval AAAI 2026

URPO: A Unified Reward & Policy Optimization Framework for Large Language Models AAAI 2026

Nemotron-CrossThink: Scaling Self-Learning beyond Math Reasoning EACL 2026

Long-form RewardBench: Evaluating Reward Models for Long-form Generation AAAI 2026

Think-J: Learning to Think for Generative LLM-as-a-Judge AAAI 2026

RMO: Towards Better LLM Alignment via Reshaping Reward Margin Distributions AAAI 2026

GEM: Generative Entropy-Guided Preference Modeling for Few-Shot Alignment of LLMs AAAI 2026

LLMdoctor: Token-Level Flow-Guided Preference Optimization for Efficient Test-Time Alignment of Large Language Models AAAI 2026

SPARE: Single-Pass Annotation with Reference-Guided Evaluation for Automatic Process Supervision and Reward Modelling AAAI 2026

Mitigating Length Bias in RLHF Through a Causal Lens AAAI 2026

Speech Recognition Model Improves Text-to-Speech Synthesis Using Fine-Grained Reward AAAI 2026

Improving Medical Large Vision-Language Models with Abnormal-Aware Feedback ACL 2025

Think&Cite: Improving Attributed Text Generation with Self-Guided Tree Search and Progress Reward Modeling ACL 2025

ViLBench: A Suite for Vision-Language Process Reward Modeling EMNLP 2025

SynthesizeMe! Inducing Persona-Guided Prompts for Personalized Reward Models in LLMs ACL 2025

Dynamic Scaling of Unit Tests for Code Reward Modeling ACL 2025

Unfamiliar Finetuning Examples Control How Language Models Hallucinate NAACL 2025

Process-Supervised Reward Models for Verifying Clinical Note Generation: A Scalable Approach Guided by Domain Expertise EMNLP 2025

CARMO: Dynamic Criteria Generation for Context Aware Reward Modelling ACL 2025

Linguistic Generalizability of Test-Time Scaling in Mathematical Reasoning ACL 2025

Rejected Dialects: Biases Against African American Language in Reward Models NAACL 2025

AgentRM: Enhancing Agent Generalization with Reward Modeling ACL 2025