12:09arXiv cs.AI@Yishun Lu, Wes Armour精选多模态自回归模型在图像生成和文本理解联合训练时,存在模态竞争导致优化不稳定、大batch训练受限的问题。研究发现AdamW等一阶优化器对跨模态梯度异质性敏感,而二阶预条件方法(如SOAP)能提供更稳定的对齐基础。作者提出ML-FOP-SOAP框架,通过Fisher正交投影抑制方差引起的模态冲突,并引入分层折叠策略降低计算开销。在Janus和Emu3模型上,该方法在batch size 8192下训练稳定,样本效率提升1.4倍,训练速度提升1.5倍。论文多模态模型优化器二阶优化模态竞争大规模训练推荐理由:多模态模型训练中模态竞争是常见痛点,做多模态预训练或大batch训练的团队可以直接参考这个二阶优化方案,能显著提升训练效率和稳定性。原文
21:36Moonshot AI: Kimi Blog(资讯)Moonshot AI 发布了关于 Muon 优化器的首次大规模训练实践技术报告。Muon 是一种基于矩阵正交化的优化器,旨在提升大模型训练效率。报告详细介绍了 Muon 在 1B 到 7B 参数模型上的训练效果,显示其在收敛速度和最终性能上优于 AdamW。该工作为大规模深度学习训练提供了新的优化器选择,尤其对计算资源有限的团队具有参考价值。论文Muon优化器大规模训练Moonshot AI优化器技术报告1 个信源在谈推荐理由:Muon 优化器有望替代 AdamW 成为大模型训练的新标配,做预训练或微调的团队值得关注其收敛速度和资源节省效果。原文