混合专家(MoE)模型架构近期在AI领域持续升温,多家机构发布了面向不同场景的新模型,同时围绕推理效率与成本优化也涌现了新技术。
- 近期主要进展
- JetBrains 发布 Mellum2:这是一款 12B 参数的 MoE 模型,专为多模型AI流水线中的快速专用任务设计,并已开源,同时升级为AI编程助手。(原文)
- 英伟达推出 Nemotron 3 Ultra:该模型采用混合状态空间模型(SSM)与 MoE 架构,拥有 5500 亿参数,宣称推理速度提升 5 倍。(原文)
- StepFun 与英伟达发布 Step 3.7 Flash:这是一款 198B 参数的 MoE 视觉语言模型,活跃参数仅 11B,支持 256K 上下文,专为编程智能体和搜索工作流设计。(原文)
- Liquid AI 发布 LFM2.5-8B-A1B:该端侧 MoE 模型总参数 8.3B,但仅激活 1.5B,旨在降低部署成本。(原文)
- TACG 提出任务感知分组策略:该技术可降低多任务 MoE 推理过程中的通信成本 31%,为解决 MoE 模型扩展中的通信瓶颈提供了新思路。(原文)
当前焦点
MoE 模型正朝着“大总参、小激活”的方向发展,在保持高容量同时降低计算开销。同时,模型正从通用对话向编程智能体、多模型流水线等专用任务分化。未来观察点在于:MoE 与 SSM 等新架构的融合能否持续提升效率,以及通信优化技术是否能使更大规模的 MoE 模型在实际部署中更具可行性。