精选理由
稀疏MoE的top-k路由不灵活还浪费算力,SoftMoE用可微路由让模型自己学会少用专家,性能却不输,代码开源了。
SoftMoE用截断的soft top-k LapSum松弛替换传统稀疏MoE的离散top-k路由,实现专家路由的可微分化。模型参数化每层平均激活专家数并施加全局预算,使容量分配可学习。在语言建模和下游任务上,SoftMoE性能与稀疏MoE相当或更优,但激活专家数量更少。实验显示分配呈高度非均匀性,后层激活更多专家。
AI 翻译 · 中文
SoftMoE用截断的soft top-k LapSum松弛替换传统稀疏MoE的离散top-k路由,实现专家路由的可微分化。模型参数化每层平均激活专家数并施加全局预算,使容量分配可学习。在语言建模和下游任务上,SoftMoE性能与稀疏MoE相当或更优,但激活专家数量更少。实验显示分配呈高度非均匀性,后层激活更多专家。
Sparse Mixture-of-Experts (MoE) architectures enable scaling LLM parameters under a fixed inference budget by activating only a small subset of experts via top-$k$ routing. While this preserves causality and suits autore…