论文精选

Linear-DPO:统一扩散与流匹配的线性偏好优化方法

Linear-DPO: Linear Direct Preference Optimization for Diffusion and Flow-Matching Generative Models

精选理由

做文本到图像生成的团队终于有了更稳定的对齐方法——Linear-DPO 统一了扩散和流匹配,解决了 DPO 在生成任务中的目标不匹配问题,做图像生成微调的建议试试。

AI 摘要

Linear-DPO 提出了一种新的直接偏好优化(DPO)方法,解决了现有 DPO 在文本到图像生成中的两大问题:仅适用于扩散模型而忽略流匹配,以及离散 NLP 的 DPO 目标与回归生成任务不匹配。论文通过统一的逆向 SDE 框架推导出覆盖扩散和流匹配的广义 DPO 目标,并从梯度角度指出标准 DPO 目标次优。Linear-DPO 用持续线性效用函数替代激进的 sigmoid 函数,并引入 EMA 更新的参考模型。在扩散模型(SD1.5、SDXL)和流匹配模型(SD3-Medium)上的实验表明,该方法优于现有基线。

AI 翻译 · 中文

Linear-DPO 提出了一种新的直接偏好优化(DPO)方法,解决了现有 DPO 在文本到图像生成中的两大问题:仅适用于扩散模型而忽略流匹配,以及离散 NLP 的 DPO 目标与回归生成任务不匹配。论文通过统一的逆向 SDE 框架推导出覆盖扩散和流匹配的广义 DPO 目标,并从梯度角度指出标准 DPO 目标次优。Linear-DPO 用持续线性效用函数替代激进的 sigmoid 函数,并引入 EMA 更新的参考模型。在扩散模型(SD1.5、SDXL)和流匹配模型(SD3-Medium)上的实验表明,该方法优于现有基线。

arXiv cs.LGDirect Preference Optimization (DPO) is successful for alignment in LLMs but still faces challenges in text-to-image generation. Existing studies are confined to denoising diffusion models while overlooking flow-matching