模型压缩技术近期取得多项突破性进展,核心趋势聚焦于将大模型高效部署到端侧设备,同时保持生成质量。在蒸馏方法上,首个将混合专家模型(MoE)蒸馏为全稠密架构的系统框架被提出(MoE转稠密模型:首个系统框架将混合专家模型蒸馏为全稠密架构),意味着可将MoE模型的计算优势转化为稠密模型的部署便利性。同时,Bridge-Garden理论探讨了混合硬软标签策略,以提升大语言模型蒸馏效果(Bridge-Garden 理论:混合硬软标签提升 LLM 蒸馏效果),为知识蒸馏提供了新的理论支持。
在端侧部署方面,Bonsai Image 4B生图模型已可登陆iPhone,实现9.4秒生成512×512图像(Bonsai Image 4B 生图模型登陆 iPhone,9.4 秒生成 512×512 图像),其1-bit版本体积仅0.93GB(PrismML 发布 Bonsai Image 4B 端侧生图模型,1-bit 版仅 0.93GB),展示了极低比特量化在移动端图像生成中的可行性。此外,中国AI公司突破了600亿参数大模型装进手机的瓶颈(中国 AI 公司突破 600 亿参数大模型装进手机的瓶颈),进一步证明大参数模型通过压缩可在有限资源下运行。
在剪枝与稀疏化领域,ASR方法提出了通道级后剪枝修复策略,专用于提升稀疏视觉网络的精度(ASR:通道级后剪枝修复方法,提升稀疏视觉网络精度);而LIFT and PLACE框架则针对轻量扩散模型设计了知识蒸馏新方案(LIFT and PLACE:轻量扩散模型的知识蒸馏新框架)。此外,层等价性测试方法的差异被揭示会影响模型压缩评估(层等价性测试方法不同,结果天差地别:Qwen3-8B和Llama-3.1-8B案例),提醒研究者在压缩评估时需注意方法一致性。
当前焦点在于如何权衡压缩率与模型性能,特别是针对不同架构(如MoE vs 稠密、扩散 vs 自回归)的定制化压缩策略。未来观察点包括:1)超低比特量化(如1-bit)在更大模型上的泛化能力;2)端侧部署时,压缩模型与硬件协同优化的潜力;3)蒸馏方法的理论边界,尤其是混合标签策略的普适性。