03:05ollama@ollamaOllama 宣布 Gemma 4 的量化感知训练(QAT)权重现已可用。这些权重在保持模型质量的同时,显著降低了内存需求。用户可以通过 Ollama 直接运行多个 Gemma 4 变体,包括 e2b、e4b、12B、26B 和 31B 等版本。Google Gemma 团队也在 Hugging Face 上发布了所有 Gemma 4 模型大小及其 drafters 的 QAT 检查点,旨在优化设备端性能。这为在资源受限环境中部署大型语言模型提供了更高效的方案。AI模型Gemma 4量化感知训练Ollama模型优化Hugging Face10 个信源在谈推荐理由:QAT 权重让 Gemma 4 在更低内存下运行,适合在本地或边缘设备部署大模型的开发者,可以直接用 Ollama 命令体验。原文
01:51Google AI Developers@googleaidevs72°Google 发布了 Gemma 4 的量化感知训练(QAT)检查点,支持在消费级 GPU 和移动设备上本地运行模型,且质量损失极小。新特性包括 GGUF Q4_0 格式检查点,针对所有尺寸和 drafter 模型优化了本地性能;以及自定义移动端混合精度模式,将 Gemma 4 压缩至 1GB 以下,采用 2-bit 解码层、优化 KV 缓存和静态激活。通过在训练时模拟压缩而非事后量化,大幅降低内存占用并加速解码,同时保持推理质量。这为开发者提供了在边缘设备上部署强大 AI 模型的新选择。AI模型Gemma 4QAT量化感知训练本地推理移动端部署10 个信源在谈推荐理由:做本地 AI 部署或移动端推理的开发者,终于有了官方 QAT 方案——Gemma 4 压缩到 1GB 以下还能保持推理质量,建议直接下载检查点试试。原文