direct preference optimization

317 papers

Explore in graph

Also known as

DPO

Co-occurring keywords

large language model (12755) preference optimization (273) reinforcement learning from human feedback (261) preference learning (411) language model alignment (142) supervised fine-tuning (310) model alignment (219) preference alignment (142) reinforcement learning (4122) reward model (251)

Papers

SparsePO: Controlling Preference Alignment of LLMs via Sparse Token Masks EMNLP 2025

CM-Align: Consistency-based Multilingual Alignment for Large Language Models EMNLP 2025

SPO: Self Preference Optimization with Self Regularization EMNLP 2025

AbsVis – Benchmarking How Humans and Vision-Language Models “See” Abstract Concepts in Images EMNLP 2025

Enhancing SAM with Efficient Prompting and Preference Optimization for Semi-supervised Medical Image Segmentation CVPR 2025

Let's Verify and Reinforce Image Generation Step by Step CVPR 2025

InPO: Inversion Preference Optimization with Reparametrized DDIM for Efficient Diffusion Model Alignment CVPR 2025

Insight-V: Exploring Long-Chain Visual Reasoning with Multimodal Large Language Models CVPR 2025

ISR-DPO: Aligning Large Multimodal Models for Videos by Iterative Self-Retrospective DPO AAAI 2025

VidChain: Chain-of-Tasks with Metric-based Direct Preference Optimization for Dense Video Captioning AAAI 2025

Beyond Human Data: Aligning Multimodal Large Language Models by Iterative Self-Evolution AAAI 2025

WEPO: Web Element Preference Optimization for LLM-based Web Navigation AAAI 2025

BFS-Prover: Scalable Best-First Tree Search for LLM-based Automatic Theorem Proving ACL 2025

Binary Classifier Optimization for Large Language Model Alignment ACL 2025

DavIR: Data Selection via Implicit Reward for Large Language Models ACL 2025

Agentic Reward Modeling: Integrating Human Preferences with Verifiable Correctness Signals for Reliable Reward Systems ACL 2025

MPO: Multilingual Safety Alignment via Reward Gap Optimization ACL 2025

Generating Plausible Distractors for Multiple-Choice Questions via Student Choice Prediction ACL 2025

SILMM: Self-Improving Large Multimodal Models for Compositional Text-to-Image Generation CVPR 2025

Into The Limits of Logic: Alignment Methods for Formal Logical Reasoning EMNLP 2025

Training of LLM-Based List-Wise Multilingual Reranker EMNLP 2025

Rethinking DPO: The Role of Rejected Responses in Preference Misalignment EMNLP 2025

Weights-Rotated Preference Optimization for Large Language Models EMNLP 2025

Assessing and Mitigating Medical Knowledge Drift and Conflicts in Large Language Models EMNLP 2025

DeepMesh: Auto-Regressive Artist-mesh Creation with Reinforcement Learning ICCV 2025