结构剪枝新方法：基于归因引导和覆盖最大化的MoE压缩

精选理由

想省显存又怕掉精度？这篇论文用通道级剪枝加4-bit量化，把MoE模型体积砍到1/5还能保住性能，DeepSeek和Qwen都能用。

AI 摘要

该论文针对混合专家(MoE)模型部署时内存和推理开销大的问题，提出一种结构剪枝框架。方法将剪枝比率分配转化为通道分数覆盖最大化问题，通过归因近似高效求解。在DeepSeek和Qwen MoE模型上实验，结合4-bit量化后，50%或25%结构化剪枝仍保持模型准确率。在Qwen3-30B-A3B上，内存占用减少5.27倍，优于现有基线。

AI 翻译 · 中文

arXiv: DeepSeekMixture-of-Experts (MoE) models scale compute efficiently, yet remain expensive to deploy due to their substantial memory footprint and inference overhead. Prior compression methods mainly operate at the expert level, ei…

阅读原文