精选理由
QAT 权重让 Gemma 4 在更低内存下运行,适合在本地或边缘设备部署大模型的开发者,可以直接用 Ollama 命令体验。
Ollama 宣布 Gemma 4 的量化感知训练(QAT)权重现已可用。这些权重在保持模型质量的同时,显著降低了内存需求。用户可以通过 Ollama 直接运行多个 Gemma 4 变体,包括 e2b、e4b、12B、26B 和 31B 等版本。Google Gemma 团队也在 Hugging Face 上发布了所有 Gemma 4 模型大小及其 drafters 的 QAT 检查点,旨在优化设备端性能。这为在资源受限环境中部署大型语言模型提供了更高效的方案。
AI 翻译 · 中文
Ollama 宣布 Gemma 4 的量化感知训练(QAT)权重现已可用。这些权重在保持模型质量的同时,显著降低了内存需求。用户可以通过 Ollama 直接运行多个 Gemma 4 变体,包括 e2b、e4b、12B、26B 和 31B 等版本。Google Gemma 团队也在 Hugging Face 上发布了所有 Gemma 4 模型大小及其 drafters 的 QAT 检查点,旨在优化设备端性能。这为在资源受限环境中部署大型语言模型提供了更高效的方案。
Gemma 4 Quantization-Aware Training (QAT) weights are now available on Ollama! They reduce memory requirements while maintaining model quality. E2B: ollama run gemma4:e2b-it-qat E4B: ollama run gemma4:e4b-it-qat 12B: oll…