DiffusionGemma：基于Gemma 4的扩散模型，每秒1000+ tokens

精选理由

每秒 1000+ tokens 的生成速度让推理成本大幅降低，做大规模文本生成或实时应用的开发者值得关注，量化后 18GB VRAM 就能跑，门槛很低。

AI 摘要

DiffusionGemma 是基于 Gemma 4 构建的 26B MoE 扩散语言模型，推理时仅激活 3.8B 参数。它采用并行生成 256-token 块的方式，实现了每秒 1000+ tokens 的生成速度。量化后模型可适配 18 GB VRAM，且采用 Apache 2.0 开源协议。这一架构突破了传统自回归模型的生成瓶颈，为高效文本生成提供了新思路。

AI 翻译 · 中文

Philipp SchmidGemma goes diffusion! DiffusionGemma with up to 1000+ tokens per second! 🌬️ - Built on Gemma 4 as a 26B MoE model. - 3.8B parameters during inference. - Generates text in 256-token blocks in parallel. - Fits within 18 G…

LMSYS Org (SGLang)06-12 04:04原文
Sundar Pichai06-10 16:19原文
rohanpaul_ai06-12 01:59原文
vLLM06-12 04:10原文
karminski-牙医 (AI工具)06-12 04:31原文
SiliconFlowAI06-11 16:24原文
Patrick Loeber06-09 13:17原文

查看原推