CAEE: 成本感知的专家执行框架提升多设备MoE推理

精选理由

CAEE框架能降低MoE模型推理延迟8%-18%，且准确率几乎不受影响。DeepSeek-R1用户可重点关注。

AI 摘要

Mixture-of-Experts (MoE)架构通过稀疏激活扩展模型规模，但数据移动瓶颈导致推理效率低下。两个关键问题：低贡献专家带来几乎均等的内存与传输成本（成本收益比低），以及多设备部署中受最慢设备限制。CAEE框架利用轻量级成本模型估算硬件开销，选择性剪枝低重要性高成本专家，并通过低开销补偿机制避免额外数据传输。在DeepSeek-R1（671B参数）上的评估显示，CAEE将端到端推理延迟降低8%-18%（专家卸载与设备内执行），模型准确率下降小于1%。

AI 翻译 · 中文

arXiv: DeepSeekMixture-of-Experts (MoE) architectures enable language models to achieve unprecedented scale via sparse activation. However, their inference performance is often limited by data movement bottlenecks. Two coupled challeng…

阅读原文