精选理由
DiffusionGemma 解决了 Transformer 逐词生成速度慢、无法回头修改的痛点,做文本生成或长内容创作的开发者可以直接在消费级显卡上跑,体验 1000+ tokens/s 的生成速度。
Google 开源了 DiffusionGemma,一种基于扩散架构的语言模型,区别于逐词生成的 Transformer,它能一次性生成 256 个 tokens 的整块文本,再通过多轮迭代逐步优化。在 H100 上推理速度可达 1000+ tokens/s,RTX 5090 上 700+ tokens/s,26B 参数模型仅需 18GB 显存。其生成过程类似写草稿后反复修改,能自动修正前文错误,提升输出质量。这一开源模型为需要高吞吐、长文本生成的场景提供了新选择。
AI 翻译 · 中文
Google 开源了 DiffusionGemma,一种基于扩散架构的语言模型,区别于逐词生成的 Transformer,它能一次性生成 256 个 tokens 的整块文本,再通过多轮迭代逐步优化。在 H100 上推理速度可达 1000+ tokens/s,RTX 5090 上 700+ tokens/s,26B 参数模型仅需 18GB 显存。其生成过程类似写草稿后反复修改,能自动修正前文错误,提升输出质量。这一开源模型为需要高吞吐、长文本生成的场景提供了新选择。
Google 开源其扩散架构模型:DiffusionGemma 区别于Transformers 模型像打字机一样逐词一个一个生成 DiffusionGemma 可一次性生成大段或者整篇内容,然后再逐步优化 大幅度提高生成的速度: 在H100 上可实现 1000+ tokens/s,RTX 5090 上 700+ tokens/s 26B,18GB 显存能跑 一次可同时生成 256 个 tokens 自己检查自己,写完还能改: 普通 AI…