reward regularization

1 papers

Explore in graph

Co-occurring keywords

language model training (44) instruction following (372) reinforcement learning from human feedback (261) credit assignment (95) token-level reward (8) preference optimization (273)

Papers

T-REG: Preference Optimization with Token-Level Reward Regularization ACL 2025