SoftMoE：可微分专家路由的混合专家模型

精选理由

稀疏MoE的top-k路由不灵活还浪费算力，SoftMoE用可微路由让模型自己学会少用专家，性能却不输，代码开源了。

AI 摘要

SoftMoE用截断的soft top-k LapSum松弛替换传统稀疏MoE的离散top-k路由，实现专家路由的可微分化。模型参数化每层平均激活专家数并施加全局预算，使容量分配可学习。在语言建模和下游任务上，SoftMoE性能与稀疏MoE相当或更优，但激活专家数量更少。实验显示分配呈高度非均匀性，后层激活更多专家。

AI 翻译 · 中文

arXiv cs.AISparse Mixture-of-Experts (MoE) architectures enable scaling LLM parameters under a fixed inference budget by activating only a small subset of experts via top-$k$ routing. While this preserves causality and suits autore…

阅读原文