mixture·general

Mixture

别名
首次出现
2026-05-22
最近出现
2026-06-11
累计提及
21
§ 01综述

混合专家模型(Mixture-of-Experts, MoE)近期在架构优化和动态路由方面取得显著进展,持续推动模型规模和效率的边界。传统MoE依赖固定路由器将输入分配给多个专家子网络,但路由策略的合理性和专家间的协作效率仍是核心挑战。

    近期主要进展:
  • 路由机制的理论改进:MPI方法重新审视MoE路由器,提出通过对齐专家的主奇异方向(Principal Singular Directions)来优化路由决策。该方法不仅揭示了路由器与专家之间的深层关联,还显著提升了模型在多个基准任务上的性能(MPI 方法重新设计 MoE 路由器:对齐专家主奇异方向)。
  • 动态专家结构的探索:dMoE引入可学习的块专家(Learnable Block Experts),允许模型动态调整专家结构和分配策略。专家不再是固定的子网络,而是可以通过学习形成更灵活的表示能力,从而在保持计算效率的同时提升模型容量(dMoE:带可学习块专家的动态MoE模型)。
  • 负载均衡与选择机制的可视化分析:有研究通过图解直观对比了Transformer与MoE在路由、专家选择及负载均衡上的差异。基于Top-K和门控网络的路由策略带来更高效的稀疏激活,但负载不均问题仍需特殊处理(Transformer vs MoE:一张图讲清路由、专家选择与负载均衡)。

当前焦点:如何设计更具适应性、理论更严谨的路由策略,并解决专家间负载不均和协作瓶颈。未来观察点:动态专家结构与任务特异性路由的结合,以及MoE在大规模多模态模型中的应用效果。

§ 02相关报道03 条在档
  1. 01
    MPI 方法重新设计 MoE 路由器:对齐专家主奇异方向
    arXiv cs.AI
  2. 02
    dMoE:带可学习块专家的动态MoE模型
    AK
  3. 03
    Transformer vs MoE:一张图讲清路由、专家选择与负载均衡
    berryxia
§ 03邻近话题

本页综述由 AITOP 基于公开报道整理。原报道版权归各自来源所有。

/topic/Mixture