精选理由
每秒 1000+ tokens 的生成速度让推理成本大幅降低,做大规模文本生成或实时应用的开发者值得关注,量化后 18GB VRAM 就能跑,门槛很低。
DiffusionGemma 是基于 Gemma 4 构建的 26B MoE 扩散语言模型,推理时仅激活 3.8B 参数。它采用并行生成 256-token 块的方式,实现了每秒 1000+ tokens 的生成速度。量化后模型可适配 18 GB VRAM,且采用 Apache 2.0 开源协议。这一架构突破了传统自回归模型的生成瓶颈,为高效文本生成提供了新思路。
AI 翻译 · 中文
DiffusionGemma 是基于 Gemma 4 构建的 26B MoE 扩散语言模型,推理时仅激活 3.8B 参数。它采用并行生成 256-token 块的方式,实现了每秒 1000+ tokens 的生成速度。量化后模型可适配 18 GB VRAM,且采用 Apache 2.0 开源协议。这一架构突破了传统自回归模型的生成瓶颈,为高效文本生成提供了新思路。
Gemma goes diffusion! DiffusionGemma with up to 1000+ tokens per second! 🌬️ - Built on Gemma 4 as a 26B MoE model. - 3.8B parameters during inference. - Generates text in 256-token blocks in parallel. - Fits within 18 G…