11:56arXiv: DeepSeek@Junhyuck Kim, Jihun Yun, Haechan Kim, Gyeongman Kim, Joonghyun Bae, Jaewoong Cho精选72°该研究提出了首个系统化框架,将混合专家模型(MoE)转换为标准全稠密架构。通过专家评分、选择、分组并拼接成稠密前馈网络,再通过知识蒸馏从MoE教师模型精炼。在Qwen3-30B-A3B上评估了7种评分、5种分组和2种幅度缩放方法,共350种配置。发现评分方法影响最大,其提出的多样性感知评分在多个模型上优于先前方法。在参数匹配控制下,MoE转稠密比稠密到稠密剪枝平均下游准确率提升6.3个百分点,训练速度快1.6倍。论文模型压缩知识蒸馏混合专家模型稠密模型Qwen3推荐理由:这个框架解决了MoE模型在内存受限设备上部署的痛点,做模型压缩和边缘部署的团队可以直接参考其方法,比传统剪枝效果更好且训练更快。原文