混合专家模型(Mixture-of-Experts, MoE)近期在架构优化和动态路由方面取得显著进展,持续推动模型规模和效率的边界。传统MoE依赖固定路由器将输入分配给多个专家子网络,但路由策略的合理性和专家间的协作效率仍是核心挑战。
- 近期主要进展:
- 路由机制的理论改进:MPI方法重新审视MoE路由器,提出通过对齐专家的主奇异方向(Principal Singular Directions)来优化路由决策。该方法不仅揭示了路由器与专家之间的深层关联,还显著提升了模型在多个基准任务上的性能(MPI 方法重新设计 MoE 路由器:对齐专家主奇异方向)。
- 动态专家结构的探索:dMoE引入可学习的块专家(Learnable Block Experts),允许模型动态调整专家结构和分配策略。专家不再是固定的子网络,而是可以通过学习形成更灵活的表示能力,从而在保持计算效率的同时提升模型容量(dMoE:带可学习块专家的动态MoE模型)。
- 负载均衡与选择机制的可视化分析:有研究通过图解直观对比了Transformer与MoE在路由、专家选择及负载均衡上的差异。基于Top-K和门控网络的路由策略带来更高效的稀疏激活,但负载不均问题仍需特殊处理(Transformer vs MoE:一张图讲清路由、专家选择与负载均衡)。
当前焦点:如何设计更具适应性、理论更严谨的路由策略,并解决专家间负载不均和协作瓶颈。未来观察点:动态专家结构与任务特异性路由的结合,以及MoE在大规模多模态模型中的应用效果。