00:02Geek@geekbb精选Unsloth AI 将最强开源模型 GLM-5.2 从 1.51TB 压缩至 238GB(缩小 84%),2-bit 量化版本保留约 82% 准确率。该模型可在 256GB Mac 或同等 RAM/VRAM 配置上本地运行。官方指南和 GGUF 文件已在 Hugging Face 发布。AI模型GLM-5.2Unsloth本地运行模型压缩开源模型推荐理由:Unsloth 把 1.5TB 的 GLM-5.2 压到 238GB,本地就能跑,准确率还能保住 82%。有 256GB 内存的 Mac 就能玩,开源模型天花板。原文
13:04AK@_akhaliqSpenseGPT提出一种实用的一次性剪枝方法,在LLM推理中同时支持稀疏和密集通用矩阵乘法(GEMM)。该方法无需重新训练,仅通过一次剪枝即可大幅减少模型参数。实验表明,在保持模型精度的前提下,剪枝后模型推理速度提升可达2倍。该技术适用于多种主流LLM架构。论文SpenseGPT剪枝LLM推理GEMM模型压缩推荐理由:一次剪枝,推理快两倍原文
08:26rohanpaul_ai@rohanpaul_ai精选72°Google 发布了 Gemma 4 的 QAT(量化感知训练)检查点,将最小模型从 11.4GB 压缩至 1.1GB,纯文本版本仅 0.84GB。与传统的 PTQ(训练后量化)不同,QAT 在训练过程中模拟压缩,让模型学会在权重被压缩时保持推理质量。Google 还构建了针对移动端的格式,包括静态激活、通道级量化、目标 2 位量化和 KV 缓存优化,减少手机计算负担,延长长对话的内存使用。这使得 Gemma 4 更容易在手机和笔记本上运行,降低了部署门槛。AI模型Gemma 4量化移动端部署QAT模型压缩7 个信源在谈推荐理由:QAT 解决了模型压缩后推理质量下降的痛点,做移动端 AI 部署的开发者可以直接用这些检查点,在手机上跑大模型不再吃内存。原文
04:19Paul Couvert@itsPaulAi88°Google 发布了 Gemma 4 QAT 模型,相比前代内存需求降低 3 倍,使得高性能模型能在本地设备上运行。其中 Gemma 4 E4B 模型性能优于 GPT-4o,仅需 2GB RAM 即可在手机上运行。而 Gemma 4 31B 模型(约 Opus 4 级别)现在可以在笔记本电脑上运行。这标志着本地 AI 部署的重大突破,让更多用户无需依赖云端即可使用强大模型。AI模型GoogleGemma 4本地 AI模型压缩量化10 个信源在谈推荐理由:本地 AI 爱好者终于等到了——Gemma 4 QAT 让旗舰级模型跑在手机和笔记本上,做边缘计算或隐私敏感应用的开发者可以直接试试。原文
12:49rohanpaul_ai@rohanpaul_ai一篇新论文提出Self-Pruned Key-Value Attention方法,让大语言模型在长文本生成时只保留对后续token有用的历史键值对,从而大幅压缩KV缓存。该方法通过一个小型预测器为每个键值对打分,只保留高分项,同时确保最近token始终保留。模型在训练时通过正常的next-token预测学习剪枝策略,无需手工规则。实验表明,模型通常只保留10%到33.7%的旧键值对,性能接近全注意力,解码速度在长上下文场景下提升2.1到4.6倍。论文KV缓存长上下文注意力机制模型压缩Self-Pruned Key-Value Attention推荐理由:KV缓存是长上下文推理的瓶颈,这篇论文用自学习剪枝解决了内存爆炸问题,做LLM推理优化或长文本应用的开发者可以直接参考其方法。原文
07:22berryxia@berryxiaPrismML 发布了 Bonsai Image 4B 扩散模型的 1-bit 和 Ternary 版本,分别仅 0.93GB 和 1.21GB,比全精度模型小 8.3 倍。在 Mac M4 Pro 上生成速度最高提升 5.6 倍,图像质量和提示词遵循度与更大模型相当。同时上线了 Bonsai Studio iOS App,支持 iPhone 本地离线生成图像,无需订阅或 API。这标志着高质量图像生成从云端真正走向个人设备。AI模型端侧模型扩散模型图像生成模型压缩PrismML推荐理由:端侧生图终于不再妥协——Bonsai Image 4B 用极致压缩把云端级质量塞进手机,做移动端 AI 应用或离线创作工具的开发者可以直接在 iPhone 上试,无需联网和付费。原文
02:41NVIDIA AI@NVIDIAAINVIDIA AI官方发布了关于Nemotron 3 Nano Omni的专家问答内容,来自Nemotron Labs。该模型是Nemotron系列的最新进展,专注于边缘设备上的高效AI推理。问答中探讨了模型架构、量化技术与实际部署场景,强调了小模型在保持高性能同时降低计算成本的重要性。这标志着NVIDIA在小型化多模态AI模型上的持续投入。AI模型NVIDIANemotron边缘推理模型压缩多模态推荐理由:对于关注边缘AI部署和模型压缩的开发者,Nemotron系列的技术细节具有实际参考价值,尤其适合了解NVIDIA在小模型领域的最新动态。原文