09:41arXiv cs.AI@Mikołaj Zasada, Łukasz Struski, Jacek Tabor, Marcin KurdzielSoftMoE用截断的soft top-k LapSum松弛替换传统稀疏MoE的离散top-k路由,实现专家路由的可微分化。模型参数化每层平均激活专家数并施加全局预算,使容量分配可学习。在语言建模和下游任务上,SoftMoE性能与稀疏MoE相当或更优,但激活专家数量更少。实验显示分配呈高度非均匀性,后层激活更多专家。AI模型SoftMoEMoELLM专家混合可微路由推荐理由:稀疏MoE的top-k路由不灵活还浪费算力,SoftMoE用可微路由让模型自己学会少用专家,性能却不输,代码开源了。原文