DiffusionGemma 4倍速碾压 Gemma4：本地运行新范式

精选理由

本地运行 LLM 的开发者终于有了速度新选择——DiffusionGemma 的 4 倍加速意味着更流畅的交互体验，用 atomic[.]chat 的团队可以直接在单卡上体验，值得一试。

AI 摘要

atomic[.]chat 在单块 H100（FP8）上对比了 DiffusionGemma（扩散文本模型）与 Gemma4 26B A4B（自回归模型）。DiffusionGemma 速度是 Gemma4 的 4 倍，改变了错误分布模式。自回归模型逐 token 生成，速度慢但精度高；扩散模型批量生成 token 再迭代修正，因此响应更快。这一对比展示了扩散模型在本地推理中的速度优势，可能改变未来本地 LLM 的部署选择。

AI 翻译 · 中文

rohanpaul_aiatomic[.]chat shared a revealing comparison of local open-weight LLMs running on their own hardware. They benchmarked the new DiffusionGemma (diffusion text model) vs. Gemma4 26B A4B (autoregressive model) on a single H1…

IT之家06-10 22:53原文
Philipp Schmid06-10 16:24原文
Decoder06-10 19:20原文
LMSYS Org (SGLang)06-12 04:04原文
vLLM06-12 04:10原文
Sundar Pichai06-10 16:19原文
NVIDIA AI06-10 18:05原文
小互06-11 02:34原文
karminski-牙医 (AI工具)06-12 04:31原文
marktechpost06-11 08:33原文

查看原推