11:58arXiv cs.LG@Ramprasath Ganesaraja, Sahil Dilip Panse, Swathika NMamba-2 1.3B参数模型通过分组量化感知训练(QAT)从FP16教师蒸馏,仅消耗4 GPU小时(单H100)和102M tokens,将内存从2,687 MB压缩至744 MB(3.61倍)。零样本七任务平均准确率达48.1%,接近Bi-Mamba的48.4%(±0.9pp置信区间)。该方法无需从头训练150B tokens,使用预训练检查点即可。研究还发现零比例坍缩现象,即可学习量化尺度导致的不稳定性,这在从头训练中不会出现。后处理校正策略对SSM无效,因循环结构导致误差累积。论文Mamba-2Ternary Mamba量化感知训练模型压缩状态空间模型推荐理由:把Mamba-2压缩到1比特权重不用花大钱从头训练,用预训练模型加少量微调就行,效果只差0.3%。原文
03:05ollama@ollamaOllama 宣布 Gemma 4 的量化感知训练(QAT)权重现已可用。这些权重在保持模型质量的同时,显著降低了内存需求。用户可以通过 Ollama 直接运行多个 Gemma 4 变体,包括 e2b、e4b、12B、26B 和 31B 等版本。Google Gemma 团队也在 Hugging Face 上发布了所有 Gemma 4 模型大小及其 drafters 的 QAT 检查点,旨在优化设备端性能。这为在资源受限环境中部署大型语言模型提供了更高效的方案。AI模型Gemma 4量化感知训练Ollama模型优化Hugging Face10 个信源在谈推荐理由:QAT 权重让 Gemma 4 在更低内存下运行,适合在本地或边缘设备部署大模型的开发者,可以直接用 Ollama 命令体验。原文
01:51Google AI Developers@googleaidevs72°Google 发布了 Gemma 4 的量化感知训练(QAT)检查点,支持在消费级 GPU 和移动设备上本地运行模型,且质量损失极小。新特性包括 GGUF Q4_0 格式检查点,针对所有尺寸和 drafter 模型优化了本地性能;以及自定义移动端混合精度模式,将 Gemma 4 压缩至 1GB 以下,采用 2-bit 解码层、优化 KV 缓存和静态激活。通过在训练时模拟压缩而非事后量化,大幅降低内存占用并加速解码,同时保持推理质量。这为开发者提供了在边缘设备上部署强大 AI 模型的新选择。AI模型Gemma 4QAT量化感知训练本地推理移动端部署10 个信源在谈推荐理由:做本地 AI 部署或移动端推理的开发者,终于有了官方 QAT 方案——Gemma 4 压缩到 1GB 以下还能保持推理质量,建议直接下载检查点试试。原文