11:22arXiv cs.LG@Hongwu Peng, Ohiremen Dibua, Yuanjun Xiong, Yifan Gong, Jianming Zhang, Yan Kang精选研究者提出Complete-muE框架,解决了从密集FFN到混合专家(MoE)模型架构的超参数迁移问题。现有方法如μP和SDE无法处理MoE中专家数量变化带来的架构和每个专家token数同时改变的问题。Complete-muE通过双桥系统实现迁移:桥I利用激活宽度μP和归一化路由器尺度映射密集FFN到密集MoE;桥II通过激活专家缩放映射密集MoE到稀疏MoE,并处理一阶SDE学习率/权重衰减校正。实验表明,在语言模型和扩散模型预训练中,该框架能使超参数在多种MoE配置下保持稳定,实现“一次调参,迁移所有”的效果,显著加速MoE模型收敛。论文MoE模型超参数迁移缩放法则Transformer预训练推荐理由:做大规模MoE模型训练的团队终于有了可靠的超参数迁移方案——不用为每个专家配置重新调参,直接复用密集模型的超参数即可,建议做预训练优化的点开看看。原文
10:59arXiv cs.AI@Dayal Singh Kalra, Maissam Barkeshli精选本文提出一个框架,通过三个指标量化超参数迁移效果:缩放律拟合质量、外推鲁棒性、参数化导致的渐近损失惩罚。研究发现,μP 相比标准参数化(SP)在 AdamW 训练中的优势,主要源于嵌入层学习率的最大化。SP 中嵌入层学习率是瓶颈,导致训练不稳定;将其按宽度因子放大以匹配 μP 可显著平滑训练并改善迁移。此外,权重衰减改善缩放律拟合,但在固定 token-per-parameter 设置下会损害外推鲁棒性。论文超参数迁移嵌入层学习率μPAdamW训练稳定性推荐理由:做 LLM 训练调参的团队会关心——嵌入层学习率是 μP 优势的关键,直接放大 SP 的嵌入层学习率就能获得类似效果,值得在实验中验证。原文