AI模型精选

Google DeepMind 发布 Gemma 4 QAT 检查点:Q4_0 和新移动格式降低内存

Google DeepMind Releases Gemma 4 QAT Checkpoints: Q4_0 and a New Mobile Format Cut On-Device Memory

精选理由

Gemma 4 量化版来了,内存省 75%

AI 摘要

Google DeepMind 推出 Gemma 4 的 QAT(量化感知训练)检查点,包含 Q4_0 格式(4-bit 量化)和新开发的移动格式。与 BF16 版本相比,Q4_0 可将模型内存占用降低约 75%,而移动格式进一步优化至适合手机等设备。这些检查点面向边缘计算场景,平衡了精度和推理速度。

图片来源 · marktechpost
AI 翻译 · 中文

Google DeepMind 推出 Gemma 4 的 QAT(量化感知训练)检查点,包含 Q4_0 格式(4-bit 量化)和新开发的移动格式。与 BF16 版本相比,Q4_0 可将模型内存占用降低约 75%,而移动格式进一步优化至适合手机等设备。这些检查点面向边缘计算场景,平衡了精度和推理速度。

marktechpostCompare Gemma 4 edge formats: BF16, Q4_0 QAT, and mobile QAT, on published memory numbers and design tradeoffs. The post Google DeepMind Releases Gemma 4 QAT Checkpoints: Q4_0 and a New Mobile Format Cut On-Device Memory