experts·general

Experts

别名
首次出现
2026-05-22
最近出现
2026-06-11
累计提及
27
§ 01综述

混合专家模型(MoE)近期在专家路由与模块设计上出现了显著进展。传统MoE依赖路由器将每个token分配给少数专家,但专家间的冗余和负载不均长期存在。

首先,MPI方法重新审视了路由器与专家的对齐问题:通过主奇异方向对齐,使专家更专注特定表征,减少冗余。实验显示该方法在保持性能的同时提升专家利用率(MPI方法重新设计MoE路由器:对齐专家主奇异方向)。其次,dMoE引入可学习块专家,让模型在训练中动态调整专家结构,而非固定容量,从而适应不同输入(dMoE:带可学习块专家的动态MoE模型)。此外,针对LLM的错误预测,有研究通过不确定性量化分离输入模糊性,改进专家选择(通过不确定性量化分离输入模糊性,提升LLM错误预测)。最后,一张图清晰地总结了Transformer与MoE在路由、专家选择及负载均衡上的差异(Transformer vs MoE:一张图讲清路由、专家选择与负载均衡)。

当前焦点在于如何更高效地分配专家资源:是改进路由器对齐,还是动态调整专家结构?未来观察点包括这些方法在大规模多任务场景下的泛化性,以及是否会出现更简洁的负载均衡机制。

§ 02相关报道04 条在档
  1. 01
    MPI 方法重新设计 MoE 路由器:对齐专家主奇异方向
    arXiv cs.AI
  2. 02
    dMoE:带可学习块专家的动态MoE模型
    AK
  3. 03
    通过不确定性量化分离输入模糊性,提升LLM错误预测
    arXiv cs.AI
  4. 04
    Transformer vs MoE:一张图讲清路由、专家选择与负载均衡
    berryxia
§ 03邻近话题

本页综述由 AITOP 基于公开报道整理。原报道版权归各自来源所有。

/topic/Experts