Google 发布 Gemma 4 QAT 检查点，模型从 11.4GB 缩至 1.1GB

精选理由

QAT 解决了模型压缩后推理质量下降的痛点，做移动端 AI 部署的开发者可以直接用这些检查点，在手机上跑大模型不再吃内存。

AI 摘要

Google 发布了 Gemma 4 的 QAT（量化感知训练）检查点，将最小模型从 11.4GB 压缩至 1.1GB，纯文本版本仅 0.84GB。与传统的 PTQ（训练后量化）不同，QAT 在训练过程中模拟压缩，让模型学会在权重被压缩时保持推理质量。Google 还构建了针对移动端的格式，包括静态激活、通道级量化、目标 2 位量化和 KV 缓存优化，减少手机计算负担，延长长对话的内存使用。这使得 Gemma 4 更容易在手机和笔记本上运行，降低了部署门槛。

AI 翻译 · 中文

rohanpaul_aiGoogle just made Gemma 4 much easier to run on phones and laptops by releasing QAT (Quantization-Aware Training) checkpoints that shrink the smallest model from 11.4GB to 1.1GB, or 0.84GB for text-only use. Normal PTQ (P…

Google AI Developers06-05 16:57原文
Paul Couvert06-05 19:02原文
ollama06-05 18:32原文
marktechpost06-05 18:59原文
Philipp Schmid06-04 14:47原文
AI Breakfast06-05 15:03原文
IT之家06-04 03:12原文

查看原推