Google 发布 Gemma 4 QAT 检查点，本地运行大模型更高效

精选理由

做本地 AI 部署或移动端推理的开发者，终于有了官方 QAT 方案——Gemma 4 压缩到 1GB 以下还能保持推理质量，建议直接下载检查点试试。

AI 摘要

Google 发布了 Gemma 4 的量化感知训练（QAT）检查点，支持在消费级 GPU 和移动设备上本地运行模型，且质量损失极小。新特性包括 GGUF Q4_0 格式检查点，针对所有尺寸和 drafter 模型优化了本地性能；以及自定义移动端混合精度模式，将 Gemma 4 压缩至 1GB 以下，采用 2-bit 解码层、优化 KV 缓存和静态激活。通过在训练时模拟压缩而非事后量化，大幅降低内存占用并加速解码，同时保持推理质量。这为开发者提供了在边缘设备上部署强大 AI 模型的新选择。

AI 翻译 · 中文

Google AI DevelopersNew @GoogleGemma 4 QAT (Quantization-Aware Training) checkpoints are here, so you can run models locally on consumer GPUs and mobile devices with minimal quality loss. What’s new: 🔹 GGUF (Q4_0): Checkpoints: Max local p…

小互06-04 00:22原文
ollama06-05 18:32原文
Paul Couvert06-05 19:02原文
rohanpaul_ai06-06 00:26原文
Decoder06-03 19:54原文
berryxia06-04 00:22原文
marktechpost06-05 18:59原文
Demis Hassabis06-03 18:35原文
Sundar Pichai06-03 19:36原文
Philipp Schmid06-04 14:47原文

查看原推