18gb · AI 话题观测

§ 01综述

近日，Google 开源了 DiffusionGemma 系列模型，这是一种基于扩散架构的语言模型，与传统自回归模型不同，它通过迭代去噪生成文本，在推理速度和效率上实现了显著突破。该模型采用混合专家（MoE）架构，总参数量达 26B，但每次推理仅激活 3.8B 参数，大幅降低了计算开销。

据小互报道，DiffusionGemma 在生成速度上达到每秒 1000+ tokens，远超传统模型。（原文链接）

berryxia 指出，该模型仅需 18GB 显存即可运行，普通消费级显卡如 RTX 4090 也能轻松部署。（原文链接）

此外，开发者 Prince Canuma 已成功将 DiffusionGemma 与 Cohere North Mini Code 模型集成到 Mac MLX 框架中，进一步扩展了其应用场景。（原文链接）

当前焦点在于扩散语言模型能否在保持速度优势的同时，达到与自回归模型相当或更优的文本质量。未来值得观察其在实际应用中的表现，以及社区能否借此推动高效本地部署的浪潮。

§ 02相关报道04 条在档

§ 03邻近话题