混合专家·general

混合专家

别名
首次出现
2026-05-29
最近出现
2026-06-12
累计提及
29
§ 01综述

混合专家(MoE)模型架构近期在AI领域持续升温,多家机构发布了面向不同场景的新模型,同时围绕推理效率与成本优化也涌现了新技术。

    近期主要进展
  • JetBrains 发布 Mellum2:这是一款 12B 参数的 MoE 模型,专为多模型AI流水线中的快速专用任务设计,并已开源,同时升级为AI编程助手。(原文)
  • 英伟达推出 Nemotron 3 Ultra:该模型采用混合状态空间模型(SSM)与 MoE 架构,拥有 5500 亿参数,宣称推理速度提升 5 倍。(原文)
  • StepFun 与英伟达发布 Step 3.7 Flash:这是一款 198B 参数的 MoE 视觉语言模型,活跃参数仅 11B,支持 256K 上下文,专为编程智能体和搜索工作流设计。(原文)
  • Liquid AI 发布 LFM2.5-8B-A1B:该端侧 MoE 模型总参数 8.3B,但仅激活 1.5B,旨在降低部署成本。(原文)
  • TACG 提出任务感知分组策略:该技术可降低多任务 MoE 推理过程中的通信成本 31%,为解决 MoE 模型扩展中的通信瓶颈提供了新思路。(原文)

当前焦点
MoE 模型正朝着“大总参、小激活”的方向发展,在保持高容量同时降低计算开销。同时,模型正从通用对话向编程智能体、多模型流水线等专用任务分化。未来观察点在于:MoE 与 SSM 等新架构的融合能否持续提升效率,以及通信优化技术是否能使更大规模的 MoE 模型在实际部署中更具可行性。

§ 02相关报道10 条在档
  1. 01
    MoE反向传播数学重写:降低激活内存,加速细粒度MoE
    Tri Dao (FlashAttention)
  2. 02
    Cohere 发布 North Mini Code:30B MoE 模型,3B 活跃参数专为智能体编程
    marktechpost
  3. 03
    Google 发布 DiffusionGemma:26B MoE 开源模型,文本扩散实现 4 倍生成加速
    marktechpost
  4. 04
    MoE 专家重要性因果审计:观测指标无法预测剪枝效果
    arXiv: DeepSeek
  5. 05
    CPU-GPU混合设计实现本地MoE推理云级SLO
    arXiv: DeepSeek
  6. 06
    注意力头电路发现:共激活提出,消融验证
    arXiv cs.AI
  7. 07
    LightningLM 0.1V:单节点8卡训练120B稀疏MoE
    arXiv cs.LG
  8. 08
    Nemotron 3 Ultra vs GPT-5.5:10倍成本差,效果接近
    rohanpaul_ai
  9. 09
    NVIDIA 发布 Nemotron 3 Ultra:550B MoE 开源模型,专为长时智能体设计
    lmarena.ai
  10. 10
    NVIDIA 发布 Nemotron 3 Ultra:550B 混合专家模型,专为长时智能体设计
    marktechpost
§ 03邻近话题

本页综述由 AITOP 基于公开报道整理。原报道版权归各自来源所有。

/topic/%E6%B7%B7%E5%90%88%E4%B8%93%E5%AE%B6