DanceOPD:面向流匹配模型的策略生成场蒸馏

DanceOPD: On-Policy Generative Field Distillation

精选理由

这篇论文用DanceOPD把T2I、局部编辑和全局编辑统一到一个模型里,解决了相互干扰的问题,效果显著提升。

AI 摘要

针对文本到图像(T2I)、局部编辑和全局编辑等能力难以统一且相互冲突的问题,论文提出DanceOPD框架。该框架基于流匹配模型,采用策略生成场蒸馏,将每个样本路由至对应能力场,并查询低噪声的学生诱导状态,用速度MSE目标训练。在T2I、编辑、真实性场吸收和CFG吸收等实验上,DanceOPD改善了多能力组合效果,增强了目标能力同时保持基准生成质量。

AI 翻译 · 中文

针对文本到图像(T2I)、局部编辑和全局编辑等能力难以统一且相互冲突的问题,论文提出DanceOPD框架。该框架基于流匹配模型,采用策略生成场蒸馏,将每个样本路由至对应能力场,并查询低噪声的学生诱导状态,用速度MSE目标训练。在T2I、编辑、真实性场吸收和CFG吸收等实验上,DanceOPD改善了多能力组合效果,增强了目标能力同时保持基准生成质量。

arXiv cs.LGModern image generation demands a single model that unifies diverse capabilities, including text-to-image (T2I), local editing, and global editing. However, these capabilities are rarely naturally aligned and often confl