全部 AI 动态 · AI 热点

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

5月25日

11:22

11:22

arXiv cs.LG@Hongwu Peng, Ohiremen Dibua, Yuanjun Xiong, Yifan Gong, Jianming Zhang, Yan Kang

精选

研究者提出Complete-muE框架，解决了从密集FFN到混合专家（MoE）模型架构的超参数迁移问题。现有方法如μP和SDE无法处理MoE中专家数量变化带来的架构和每个专家token数同时改变的问题。Complete-muE通过双桥系统实现迁移：桥I利用激活宽度μP和归一化路由器尺度映射密集FFN到密集MoE；桥II通过激活专家缩放映射密集MoE到稀疏MoE，并处理一阶SDE学习率/权重衰减校正。实验表明，在语言模型和扩散模型预训练中，该框架能使超参数在多种MoE配置下保持稳定，实现“一次调参，迁移所有”的效果，显著加速MoE模型收敛。

论文 MoE模型超参数迁移缩放法则 Transformer 预训练

推荐理由：做大规模MoE模型训练的团队终于有了可靠的超参数迁移方案——不用为每个专家配置重新调参，直接复用密集模型的超参数即可，建议做预训练优化的点开看看。