conftrace_

Kangwen Zhao

1 papers · 2026–2026 · 1 conference · across top CS/AI conferences

Conferences

ACL (1)

Top co-authors

Dongyun Xue (1) Li Li (1) Jianfeng Cai (1) Jinhua Zhu (1) Ruopei Sun (1) Wengang Zhou (1) Houqiang Li (1)

Keywords

direct preference optimization (1) reinforcement learning from human feedback (1) preference modeling (1) reward hacking (1) reward model (1) length bia (1)

Papers

Bias Fitting to Mitigate Length Bias of Reward Model in RLHF ACL 2026