Gemma 4 QAT 权重上线 Ollama，内存需求降低

精选理由

QAT 权重让 Gemma 4 在更低内存下运行，适合在本地或边缘设备部署大模型的开发者，可以直接用 Ollama 命令体验。

AI 摘要

Ollama 宣布 Gemma 4 的量化感知训练（QAT）权重现已可用。这些权重在保持模型质量的同时，显著降低了内存需求。用户可以通过 Ollama 直接运行多个 Gemma 4 变体，包括 e2b、e4b、12B、26B 和 31B 等版本。Google Gemma 团队也在 Hugging Face 上发布了所有 Gemma 4 模型大小及其 drafters 的 QAT 检查点，旨在优化设备端性能。这为在资源受限环境中部署大型语言模型提供了更高效的方案。

AI 翻译 · 中文

ollamaGemma 4 Quantization-Aware Training (QAT) weights are now available on Ollama! They reduce memory requirements while maintaining model quality. E2B: ollama run gemma4:e2b-it-qat E4B: ollama run gemma4:e4b-it-qat 12B: oll…

Google AI Developers06-05 16:57原文
小互06-04 00:22原文
marktechpost06-05 18:59原文
Paul Couvert06-05 19:02原文
rohanpaul_ai06-06 00:26原文
Demis Hassabis06-03 18:35原文
Sundar Pichai06-03 19:36原文
Decoder06-03 19:54原文
berryxia06-04 00:22原文
Philipp Schmid06-04 14:47原文

查看原推