全部 AI 动态 · AI 热点

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

5月18日

12:09

12:09

arXiv cs.AI@Yishun Lu, Wes Armour

精选

多模态自回归模型在图像生成和文本理解联合训练时，存在模态竞争导致优化不稳定、大batch训练受限的问题。研究发现AdamW等一阶优化器对跨模态梯度异质性敏感，而二阶预条件方法（如SOAP）能提供更稳定的对齐基础。作者提出ML-FOP-SOAP框架，通过Fisher正交投影抑制方差引起的模态冲突，并引入分层折叠策略降低计算开销。在Janus和Emu3模型上，该方法在batch size 8192下训练稳定，样本效率提升1.4倍，训练速度提升1.5倍。

论文多模态模型优化器二阶优化模态竞争大规模训练

推荐理由：多模态模型训练中模态竞争是常见痛点，做多模态预训练或大batch训练的团队可以直接参考这个二阶优化方案，能显著提升训练效率和稳定性。

5月13日

21:36

21:36Moonshot AI: Kimi Blog（资讯）

Moonshot AI 发布了关于 Muon 优化器的首次大规模训练实践技术报告。Muon 是一种基于矩阵正交化的优化器，旨在提升大模型训练效率。报告详细介绍了 Muon 在 1B 到 7B 参数模型上的训练效果，显示其在收敛速度和最终性能上优于 AdamW。该工作为大规模深度学习训练提供了新的优化器选择，尤其对计算资源有限的团队具有参考价值。

论文 Muon优化器大规模训练 Moonshot AI 优化器技术报告

推荐理由：Muon 优化器有望替代 AdamW 成为大模型训练的新标配，做预训练或微调的团队值得关注其收敛速度和资源节省效果。