DECO: 稀疏MoE实现端侧设备上媲美稠密模型性能

精选理由

DECO在保持性能和降低计算开销方面取得了良好平衡,其3倍加速和严格的稀疏性控制对端侧AI部署具有实际参考价值。

AI 摘要

DECO是一种针对端侧设备设计的稀疏MoE架构,旨在相同参数预算和训练Token数下达到稠密Transformer的性能。它采用可微分灵活的ReLU路由和可学习专家缩放,结合新激活函数NormSiLU,提高了路由专家激活比率的稳定性和内在稀疏性。实验显示,仅激活20%专家即可匹配稠密模型性能,专用加速核在真实硬件上相比稠密推理加速3倍。这一工作对推动MoE在资源受限设备上的实际部署具有重要意义。

AI 翻译 · 中文

DECO是一种针对端侧设备设计的稀疏MoE架构,旨在相同参数预算和训练Token数下达到稠密Transformer的性能。它采用可微分灵活的ReLU路由和可学习专家缩放,结合新激活函数NormSiLU,提高了路由专家激活比率的稳定性和内在稀疏性。实验显示,仅激活20%专家即可匹配稠密模型性能,专用加速核在真实硬件上相比稠密推理加速3倍。这一工作对推动MoE在资源受限设备上的实际部署具有重要意义。