精选理由
本地 LLM 用户终于等来速度突破——DiffusionGemma 的并行生成机制让推理快 4 倍,做本地部署或边缘计算的开发者可以直接在 18GB 显存下体验,值得一试。
Google 发布了 DiffusionGemma,一个基于扩散模型的 26B 参数 MoE 开源语言模型,激活参数仅 3.8B。该模型采用 Apache 2.0 许可证,量化后可在 18GB VRAM 内运行。其核心优势在于并行生成 256 个 token,推理速度比传统自回归模型快 4 倍,在 H100 上可达 1000+ tokens/s,在 RTX 5090 上可达 700+ tokens/s。这解决了本地大模型推理慢的痛点,尤其适合单用户场景。
AI 翻译 · 中文
Google 发布了 DiffusionGemma,一个基于扩散模型的 26B 参数 MoE 开源语言模型,激活参数仅 3.8B。该模型采用 Apache 2.0 许可证,量化后可在 18GB VRAM 内运行。其核心优势在于并行生成 256 个 token,推理速度比传统自回归模型快 4 倍,在 H100 上可达 1000+ tokens/s,在 RTX 5090 上可达 700+ tokens/s。这解决了本地大模型推理慢的痛点,尤其适合单用户场景。
Great news for local LLMS. Google just released DiffusionGemma, an open experimental 26B MoE, activates only 3.8B. Open model, Apache 2.0 license. fits within 18GB VRAM when quantized The big deal is the speed, Diffusion…