Google 开源 DiffusionGemma：扩散架构模型，1000+ tokens/s

精选理由

DiffusionGemma 解决了 Transformer 逐词生成速度慢、无法回头修改的痛点，做文本生成或长内容创作的开发者可以直接在消费级显卡上跑，体验 1000+ tokens/s 的生成速度。

AI 摘要

Google 开源了 DiffusionGemma，一种基于扩散架构的语言模型，区别于逐词生成的 Transformer，它能一次性生成 256 个 tokens 的整块文本，再通过多轮迭代逐步优化。在 H100 上推理速度可达 1000+ tokens/s，RTX 5090 上 700+ tokens/s，26B 参数模型仅需 18GB 显存。其生成过程类似写草稿后反复修改，能自动修正前文错误，提升输出质量。这一开源模型为需要高吞吐、长文本生成的场景提供了新选择。

AI 翻译 · 中文

小互Google 开源其扩散架构模型：DiffusionGemma 区别于Transformers 模型像打字机一样逐词一个一个生成 DiffusionGemma 可一次性生成大段或者整篇内容，然后再逐步优化大幅度提高生成的速度：在H100 上可实现 1000+ tokens/s，RTX 5090 上 700+ tokens/s 26B，18GB 显存能跑一次可同时生成 256 个 tokens 自己检查自己，写完还能改：普通 AI…

rohanpaul_ai06-10 18:00原文
NVIDIA AI06-10 18:05原文
Decoder06-10 19:20原文
IT之家06-10 22:53原文
shao__meng06-10 01:20原文
marktechpost06-11 08:33原文

查看原推