MoE转稠密模型：首个系统框架将混合专家模型蒸馏为全稠密架构

精选理由

这个框架解决了MoE模型在内存受限设备上部署的痛点，做模型压缩和边缘部署的团队可以直接参考其方法，比传统剪枝效果更好且训练更快。

AI 摘要

该研究提出了首个系统化框架，将混合专家模型（MoE）转换为标准全稠密架构。通过专家评分、选择、分组并拼接成稠密前馈网络，再通过知识蒸馏从MoE教师模型精炼。在Qwen3-30B-A3B上评估了7种评分、5种分组和2种幅度缩放方法，共350种配置。发现评分方法影响最大，其提出的多样性感知评分在多个模型上优于先前方法。在参数匹配控制下，MoE转稠密比稠密到稠密剪枝平均下游准确率提升6.3个百分点，训练速度快1.6倍。

AI 翻译 · 中文

arXiv: DeepSeekMixture-of-Experts (MoE) is now the dominant architecture for frontier language models, yet it requires all expert parameters to be loaded in memory, making it less preferable for memory-constrained deployment. Existing …

阅读原文