02:52rohanpaul_ai@rohanpaul_ai精选72°研究发现,大型混合专家(MoE)模型在处理许多简单token时,浪费了约一半的专家计算资源。新提出的ZEDA(零专家自蒸馏适应)框架,通过为路由器添加“零专家”选项,让模型在token不需要复杂处理时直接跳过专家计算。该方法无需重新训练,而是将原MoE模型作为冻结教师,通过自蒸馏学习何时安全跳过计算。在Qwen3-30B-A3B和GLM-4.7-Flash上测试,去除了约50%的专家计算,精度损失极小,实际推理速度提升约20%。这表明计算消耗并不简单跟随任务难度,而是与不确定性相关,为部署MoE模型提供了更经济的方案。论文MoE模型优化推理加速自蒸馏Qwen3GLM推荐理由:部署MoE模型的团队终于可以省下一半专家计算——ZEDA让Qwen3和GLM等模型自动跳过简单token,推理速度提升20%且几乎不掉精度,做模型推理优化的开发者可以直接参考论文方法。原文
15:51Perplexity@perplexity_ai精选Perplexity AI 发布了关于在 NVIDIA GB200 NVL72 Blackwell 机架上部署后训练 Qwen3 235B 模型的新研究。研究表明,GB200 不仅是训练平台,更是大型 MoE 模型高吞吐推理的重大升级,性能显著优于 Hopper 架构。该工作展示了如何利用 Blackwell 的硬件特性优化推理效率,为大规模 AI 服务提供新思路。AI模型推理模型PerplexityQwen3NVIDIA GB200MoE推荐理由:做大规模模型推理部署的团队值得关注——GB200 在 MoE 模型上的推理效率提升显著,Perplexity 的实践给出了可直接参考的优化路径。原文