模型压缩 · AI 话题观测

§ 01综述

模型压缩是指通过减少神经网络模型的大小和计算需求，使其能够在资源受限的设备（如手机）上高效运行的一系列技术。近年来，随着大语言模型参数规模的爆发式增长，模型压缩成为部署落地的关键瓶颈。

模型压缩近期进展

Bonsai 27B：27B参数推理模型压缩至4GB，可在iPhone上运行
Decoder报道，Bonsai 27B是一个完全开源的推理模型，通过压缩技术将27亿参数（实际为27B，即270亿参数）的模型缩小到仅4GB，从而能在iPhone上本地运行。这标志着大模型从云端走向边缘设备的重大突破。原文链接

PrismML 将 Qwen3.6-27B 压到 3.9GB，保留 90% 性能
据小互报道，PrismML采用1-bit量化技术，将Qwen3.6-27B模型从原始内存占用约54GB压缩至3.9GB，在iPhone上运行的同时保留了约90%的原始性能。苹果随后评估该技术，确认iPhone 15可运行此压缩模型。原文链接

NVIDIA压缩MoE模型Nemotron-Labs-3-Puzzle-75B-A9B，吞吐量提升2.03倍
Marktechpost报道，NVIDIA发布了压缩混合MoE模型Nemotron-Labs-3-Puzzle-75B-A9B，通过架构压缩使服务器吞吐量提升2.03倍，同时保持了匹配的用户吞吐量质量。原文链接

当前焦点与观察点

模型压缩的焦点正从传统的剪枝、量化向端侧部署和MoE压缩演进。1-bit量化（如PrismML）和极端压缩（如Bonsai模型到4GB）使消费级设备运行大模型成为现实，但性能保留（90%）仍有提升空间。另一方向是通过训练时低秩正则化（如SLORR）或频率引导的KV缓存压缩（如FreqDepthKV）提升压缩效率。此外，NVIDIA的MoE压缩方案展示了服务器端吞吐量的显著提升，表明模型压缩在不同部署场景下各有侧重。整体而言，模型压缩技术正快速成熟，但如何在压缩率、性能和通用性之间取得平衡仍是核心挑战。

§ 02相关报道10 条在档

§ 03邻近话题