精选理由
做大规模MoE模型训练的团队终于有了可靠的超参数迁移方案——不用为每个专家配置重新调参,直接复用密集模型的超参数即可,建议做预训练优化的点开看看。
研究者提出Complete-muE框架,解决了从密集FFN到混合专家(MoE)模型架构的超参数迁移问题。现有方法如μP和SDE无法处理MoE中专家数量变化带来的架构和每个专家token数同时改变的问题。Complete-muE通过双桥系统实现迁移:桥I利用激活宽度μP和归一化路由器尺度映射密集FFN到密集MoE;桥II通过激活专家缩放映射密集MoE到稀疏MoE,并处理一阶SDE学习率/权重衰减校正。实验表明,在语言模型和扩散模型预训练中,该框架能使超参数在多种MoE配置下保持稳定,实现“一次调参,迁移所有”的效果,显著加速MoE模型收敛。
AI 翻译 · 中文
研究者提出Complete-muE框架,解决了从密集FFN到混合专家(MoE)模型架构的超参数迁移问题。现有方法如μP和SDE无法处理MoE中专家数量变化带来的架构和每个专家token数同时改变的问题。Complete-muE通过双桥系统实现迁移:桥I利用激活宽度μP和归一化路由器尺度映射密集FFN到密集MoE;桥II通过激活专家缩放映射密集MoE到稀疏MoE,并处理一阶SDE学习率/权重衰减校正。实验表明,在语言模型和扩散模型预训练中,该框架能使超参数在多种MoE配置下保持稳定,实现“一次调参,迁移所有”的效果,显著加速MoE模型收敛。
We propose Complete-muE, a framework which targets hyperparameter transfer across dense FFN and any Mixture-of-Experts (MoE) setups in transformer blocks. Existing tools such as $μ$P (requires fixed architectue) or SDE (…