DrPO：一步生成模型偏好优化的新方法

精选理由

DrPO 解决了单步生成模型偏好微调的核心痛点——无需可微奖励或复杂去噪轨迹，做文本到图像生成的团队可以直接用黑箱奖励提升模型对齐度，训练效率还提升了3倍多，值得关注。

AI 摘要

一步式文本到图像生成器（如SD-Turbo）因单次前向传播即可生成图像而备受关注，但其偏好微调面临挑战。现有方法依赖策略似然、去噪轨迹或可微奖励梯度，难以直接应用。研究者提出Drifting Preference Optimization (DrPO)，一种在线偏好微调方法，通过从当前生成器采样候选图像，用目标奖励排序，并合成特征空间更新方向（非参数偶极偏好场加参考漂移），实现无需奖励梯度的训练。DrPO在SD-Turbo和SDXL-Turbo上评估，使用HPSv3和GenEval等基准，相比无奖励梯度的一步偏好基线提升了对齐效果，并在匹配有效批次设置下将HPSv3训练计算量降低3.51倍。该方法支持大型、黑箱或不可微奖励，且推理时仍保持单次生成调用。

AI 翻译 · 中文

arXiv cs.LGOne-step text-to-image generators are attractive for deployment because they generate an image with a single forward pass, but preference finetuning them remains difficult: standard alignment methods often rely on policy…

阅读原文