SubFit：子模块级非连续替换压缩 LLM，25% 稀疏度保留 84.6% 精度

精选理由

做 LLM 部署优化的团队终于有了更精细的压缩工具——SubFit 在 25% 稀疏度下精度损失比最强基线少一半，且非连续子模块选择更贴合真实冗余分布，建议做模型量化和剪枝的开发者直接试。

AI 摘要

现有 LLM 后训练压缩方法将整个层替换为轻量模块，但受限于全层粒度和连续选择。SubFit 提出子模块级替换，允许非连续地选择 Attention 和 FeedForward 子模块，并为每个子模块独立学习残差旁路。实验覆盖 10 个 LLM（5 个基础、5 个指令微调）和 5 个稀疏度（12.5%-37.5%），在 25% 稀疏度下，SubFit 保留 84.6% 下游精度（最强基线 81.6%），困惑度仅退化 2.42 倍（基线 4.34 倍）。该方法仅需校准数据，可带来推理加速和 KV 缓存节省。代码已开源。

AI 翻译 · 中文

arXiv cs.AIPost-training compression of Large Language Models (LLMs) removes entire architectural components, either deleting them or replacing them with fitted modules. Existing replacement-based methods share two design constrain…

阅读原文