近期,量化技术在大模型领域持续演进,重点集中在降低部署成本、提升推理效率以及保持模型性能。当前趋势显示,研究者正从传统的低比特量化(如W4A4)向更激进的2-bit KV缓存量化、无乘法器方法以及面向特定任务(如多语言翻译、机器遗忘)的定制化量化方案拓展。
- 主要进展:
- Ω-QVLA 实现W4A4量化视觉语言模型:通过统一框架将VLA模型压缩71%内存,且性能无损,展示了高压缩比下多模态模型的应用潜力。(Ω-QVLA:统一W4A4量化VLA模型,压缩71%内存且性能不降)
- Together AI 开源 OSCAR 系统:采用2-bit KV缓存量化,针对长上下文LLM推理提速3倍,解决了大模型处理长序列时的存储瓶颈。(Together AI 开源 OSCAR:2-bit KV 缓存量化系统,长上下文 LLM 推理提速 3 倍)
- OrpQuant 提出无乘法器量化方法:基于位置编码(PoT)实现15分钟校准LLaMA-2-7B,显著降低量化过程中的计算复杂度。(OrpQuant:无乘法器的PoT量化新方法,15分钟校准LLaMA-2-7B)
- 腾讯开源 Hy-MT2 多语言翻译模型:1.8B参数模型量化后仅440MB,性能超越微软豆包API,展示了量化在边缘部署中的优势。(Hy-MT2 多语言翻译模型发布:1.8B 量化后仅 440MB,性能超微软豆包 API)
当前焦点: 业界正积极探索量化在推理阶段(如KV缓存)的精细化设计,以及结合知识蒸馏、自适应码本等技术以平衡效率与精度。同时,量化后的安全与隐私问题(如机器遗忘)开始受到关注。
未来观察点: 量化方案能否进一步降至1-bit以下且不显著损失性能?针对不同架构(如VLA、多语言模型)的专用量化工具能否统一?量化后的模型可解释性与安全性如何保障?