模型压缩·general

模型压缩

别名
首次出现
2026-05-22
最近出现
2026-06-12
累计提及
14
§ 01综述

模型压缩技术近期取得多项突破性进展,核心趋势聚焦于将大模型高效部署到端侧设备,同时保持生成质量。在蒸馏方法上,首个将混合专家模型(MoE)蒸馏为全稠密架构的系统框架被提出(MoE转稠密模型:首个系统框架将混合专家模型蒸馏为全稠密架构),意味着可将MoE模型的计算优势转化为稠密模型的部署便利性。同时,Bridge-Garden理论探讨了混合硬软标签策略,以提升大语言模型蒸馏效果(Bridge-Garden 理论:混合硬软标签提升 LLM 蒸馏效果),为知识蒸馏提供了新的理论支持。

在端侧部署方面,Bonsai Image 4B生图模型已可登陆iPhone,实现9.4秒生成512×512图像(Bonsai Image 4B 生图模型登陆 iPhone,9.4 秒生成 512×512 图像),其1-bit版本体积仅0.93GB(PrismML 发布 Bonsai Image 4B 端侧生图模型,1-bit 版仅 0.93GB),展示了极低比特量化在移动端图像生成中的可行性。此外,中国AI公司突破了600亿参数大模型装进手机的瓶颈(中国 AI 公司突破 600 亿参数大模型装进手机的瓶颈),进一步证明大参数模型通过压缩可在有限资源下运行。

在剪枝与稀疏化领域,ASR方法提出了通道级后剪枝修复策略,专用于提升稀疏视觉网络的精度(ASR:通道级后剪枝修复方法,提升稀疏视觉网络精度);而LIFT and PLACE框架则针对轻量扩散模型设计了知识蒸馏新方案(LIFT and PLACE:轻量扩散模型的知识蒸馏新框架)。此外,层等价性测试方法的差异被揭示会影响模型压缩评估(层等价性测试方法不同,结果天差地别:Qwen3-8B和Llama-3.1-8B案例),提醒研究者在压缩评估时需注意方法一致性。

当前焦点在于如何权衡压缩率与模型性能,特别是针对不同架构(如MoE vs 稠密、扩散 vs 自回归)的定制化压缩策略。未来观察点包括:1)超低比特量化(如1-bit)在更大模型上的泛化能力;2)端侧部署时,压缩模型与硬件协同优化的潜力;3)蒸馏方法的理论边界,尤其是混合标签策略的普适性。

§ 02相关报道10 条在档
  1. 01
    SCSB:从均匀先验到稀疏后验的集成学习压缩与校准方法
    arXiv cs.LG
  2. 02
    PiSO:高效找到最优后训练量化尺度
    arXiv cs.LG
  3. 03
    Google 发布 Gemma 4 QAT 检查点,模型从 11.4GB 缩至 1.1GB
    rohanpaul_ai
  4. 04
    Google 发布 Gemma 4 QAT,内存需求降低 3 倍
    Paul Couvert
  5. 05
    Self-Pruned Key-Value Attention:让LLM只保留未来有用的记忆
    rohanpaul_ai
  6. 06
    SubFit:子模块级非连续替换压缩 LLM,25% 稀疏度保留 84.6% 精度
    arXiv cs.AI
  7. 07
    MoE转稠密模型:首个系统框架将混合专家模型蒸馏为全稠密架构
    arXiv: DeepSeek
  8. 08
    Bonsai Image 4B 生图模型登陆 iPhone,9.4 秒生成 512×512 图像
    IT之家
  9. 09
    PrismML 发布 Bonsai Image 4B 端侧生图模型,1-bit 版仅 0.93GB
    berryxia
  10. 10
    Bridge-Garden 理论:混合硬软标签提升 LLM 蒸馏效果
    arXiv: DeepSeek
§ 03邻近话题

本页综述由 AITOP 基于公开报道整理。原报道版权归各自来源所有。

/topic/%E6%A8%A1%E5%9E%8B%E5%8E%8B%E7%BC%A9