DiT训练慢?新方法8.75倍加速,根源在残差连接

Image diffusion Transformers train poorly because …

精选理由

扩散模型研究者终于找到了训练瓶颈的隐藏位置——残差连接,8.75倍加速意味着更低的训练成本,做图像生成的团队值得关注这个新路由方案。

AI 摘要

研究发现图像扩散Transformer训练效率低下的根源在于残差连接,而非注意力或编码器。残差连接导致信号膨胀、梯度消失和特征冗余,尤其不适合扩散模型这种多步去噪任务。作者提出扩散自适应路由(Diffusion-Adaptive Routing),让每层根据去噪时间步动态选择前层输出,从而在相同图像质量下减少8.75倍训练迭代。该工作没有引入新数据集或注意力机制,而是质疑了从语言Transformer继承的残差结构。

AI 翻译 · 中文

研究发现图像扩散Transformer训练效率低下的根源在于残差连接,而非注意力或编码器。残差连接导致信号膨胀、梯度消失和特征冗余,尤其不适合扩散模型这种多步去噪任务。作者提出扩散自适应路由(Diffusion-Adaptive Routing),让每层根据去噪时间步动态选择前层输出,从而在相同图像质量下减少8.75倍训练迭代。该工作没有引入新数据集或注意力机制,而是质疑了从语言Transformer继承的残差结构。

rohanpaul_aiImage diffusion Transformers train poorly because their layers pass information in a fixed, outdated way. Now they can train much faster by changing how layers share information. With this paper, the same image quality