DiT训练慢？新方法8.75倍加速，根源在残差连接

精选理由

扩散模型研究者终于找到了训练瓶颈的隐藏位置——残差连接，8.75倍加速意味着更低的训练成本，做图像生成的团队值得关注这个新路由方案。

AI 摘要

研究发现图像扩散Transformer训练效率低下的根源在于残差连接，而非注意力或编码器。残差连接导致信号膨胀、梯度消失和特征冗余，尤其不适合扩散模型这种多步去噪任务。作者提出扩散自适应路由（Diffusion-Adaptive Routing），让每层根据去噪时间步动态选择前层输出，从而在相同图像质量下减少8.75倍训练迭代。该工作没有引入新数据集或注意力机制，而是质疑了从语言Transformer继承的残差结构。

AI 翻译 · 中文

rohanpaul_aiImage diffusion Transformers train poorly because their layers pass information in a fixed, outdated way. Now they can train much faster by changing how layers share information. With this paper, the same image quality …

查看原推