Papers

261 papers found

Self-Steering Optimization: Autonomous Preference Optimization for Large Language Models

Hao Xiang, Bowen Yu, Hongyu Lin et al.

2025 ACL

Expectation Preference Optimization: Reliable Preference Estimation for Improving the Reasoning Capability of Large Language Models

Zelin Li, Dawei Song

2025 EMNLP

Geometric-Averaged Preference Optimization for Soft Preference Labels

Hiroki Furuta, Kuang-Huei Lee, Shixiang Shane Gu et al.

2024 NIPS

Teaching an Old LLM Secure Coding: Localized Preference Optimization on Distilled Preferences

Mohammad Saqib Hasan, Saikat Chakraborty, Santu Karmaker et al.

2025 ACL

Diffusion-NPO: Negative Preference Optimization for Better Preference Aligned Generation of Diffusion Models

Fu-Yun Wang, Yunhao Shui, Jingtan Piao et al.

2025 ICLR

UCPO: A Universal Constrained Combinatorial Optimization Method via Preference Optimization

Zhanhong Fang, Debing Wang, Jinbiao Chen et al.

2026 AAAI

POPEN: Preference-Based Optimization and Ensemble for LVLM-Based Reasoning Segmentation

Lanyun Zhu, Tianrun Chen, Qianxiong Xu et al.

2025 CVPR

Neural Dueling Bandits: Preference-Based Optimization with Human Feedback

Arun Verma, Zhongxiang Dai, Xiaoqiang Lin et al.

2025 ICLR

Sequential Preference Optimization: Multi-Dimensional Preference Alignment with Implicit Reward Modeling

Xingzhou Lou, Junge Zhang, Jian Xie et al.

2025 AAAI

CAPO: Confidence Aware Preference Optimization Learning for Multilingual Preferences

Rhitabrat Pokharel, Yufei Tao, Ameeta Agrawal

2025 IJCNLP

CAPO: Confidence Aware Preference Optimization Learning for Multilingual Preferences

Rhitabrat Pokharel, Yufei Tao, Ameeta Agrawal

2025 AACL

Direct Preference-based Policy Optimization without Reward Modeling

Gaon An, Junhyeok Lee, Xingdong Zuo et al.

2023 NIPS

Adversarial Policy Optimization for Offline Preference-based Reinforcement Learning

Hyungkyu Kang, Min-hwan Oh

2025 ICLR

Beyond Reward: Offline Preference-guided Policy Optimization

Yachen Kang, Diyuan Shi, Jinxin Liu et al.

2023 ICML

Bootstrapping LLMs via Preference-Based Policy Optimization

Chen Jia

2026 AAAI

Finding the Sweet Spot: Preference Data Construction for Scaling Preference Optimization

Yao Xiao, Hai Ye, Linyao Chen et al.

2025 ACL

Self-supervised Preference Optimization: Enhance Your Language Model with Preference Degree Awareness

Jian Li, Haojing Huang, Yujia Zhang et al.

2024 EMNLP

Ambiguity Awareness Optimization: Towards Semantic Disambiguation for Direct Preference Optimization

Jian Li, Shenglin Yin, Yujia Zhang et al.

2025 EMNLP

No Preference Left Behind: Group Distributional Preference Optimization

Binwei Yao, Zefan Cai, Yun-Shiuan Chuang et al.

2025 ICLR

Aesthetic Post-Training Diffusion Models from Generic Preferences with Step-by-step Preference Optimization

Zhanhao Liang, Yuhui Yuan, Shuyang Gu et al.

2025 CVPR

Direct Preference-Based Evolutionary Multi-Objective Optimization with Dueling Bandits

Tian Huang, Shengbo Wang, Ke Li

2024 NIPS

Beyond One-Preference-Fits-All Alignment: Multi-Objective Direct Preference Optimization

Zhanhui Zhou, Jie Liu, Jing Shao et al.

2024 ACL

Preference-Aware Constrained Multi-Objective Bayesian Optimization (Student Abstract)

Alaleh Ahmadianshalchi, Syrine Belakaria, Janardhan Rao Doppa

2024 AAAI

Direct Preference Optimization: Your Language Model is Secretly a Reward Model

Rafael Rafailov, Archit Sharma, Eric Mitchell et al.

2023 NIPS

Chain of Preference Optimization: Improving Chain-of-Thought Reasoning in LLMs

Xuan Zhang, Chao Du, Tianyu Pang et al.

2024 NIPS