精选理由
做本地 AI 部署或移动端推理的开发者,终于有了官方 QAT 方案——Gemma 4 压缩到 1GB 以下还能保持推理质量,建议直接下载检查点试试。
Google 发布了 Gemma 4 的量化感知训练(QAT)检查点,支持在消费级 GPU 和移动设备上本地运行模型,且质量损失极小。新特性包括 GGUF Q4_0 格式检查点,针对所有尺寸和 drafter 模型优化了本地性能;以及自定义移动端混合精度模式,将 Gemma 4 压缩至 1GB 以下,采用 2-bit 解码层、优化 KV 缓存和静态激活。通过在训练时模拟压缩而非事后量化,大幅降低内存占用并加速解码,同时保持推理质量。这为开发者提供了在边缘设备上部署强大 AI 模型的新选择。
AI 翻译 · 中文
Google 发布了 Gemma 4 的量化感知训练(QAT)检查点,支持在消费级 GPU 和移动设备上本地运行模型,且质量损失极小。新特性包括 GGUF Q4_0 格式检查点,针对所有尺寸和 drafter 模型优化了本地性能;以及自定义移动端混合精度模式,将 Gemma 4 压缩至 1GB 以下,采用 2-bit 解码层、优化 KV 缓存和静态激活。通过在训练时模拟压缩而非事后量化,大幅降低内存占用并加速解码,同时保持推理质量。这为开发者提供了在边缘设备上部署强大 AI 模型的新选择。
New @GoogleGemma 4 QAT (Quantization-Aware Training) checkpoints are here, so you can run models locally on consumer GPUs and mobile devices with minimal quality loss. What’s new: 🔹 GGUF (Q4_0): Checkpoints: Max local p…