DiffusionGemma:基于Gemma 4的扩散模型,每秒1000+ tokens

Gemma goes diffusion! DiffusionGemma with up to 1000+ tokens per second! 🌬️ - Built on Gemma 4 as ...

精选理由

每秒 1000+ tokens 的生成速度让推理成本大幅降低,做大规模文本生成或实时应用的开发者值得关注,量化后 18GB VRAM 就能跑,门槛很低。

AI 摘要

DiffusionGemma 是基于 Gemma 4 构建的 26B MoE 扩散语言模型,推理时仅激活 3.8B 参数。它采用并行生成 256-token 块的方式,实现了每秒 1000+ tokens 的生成速度。量化后模型可适配 18 GB VRAM,且采用 Apache 2.0 开源协议。这一架构突破了传统自回归模型的生成瓶颈,为高效文本生成提供了新思路。

AI 翻译 · 中文

DiffusionGemma 是基于 Gemma 4 构建的 26B MoE 扩散语言模型,推理时仅激活 3.8B 参数。它采用并行生成 256-token 块的方式,实现了每秒 1000+ tokens 的生成速度。量化后模型可适配 18 GB VRAM,且采用 Apache 2.0 开源协议。这一架构突破了传统自回归模型的生成瓶颈,为高效文本生成提供了新思路。

Philipp SchmidGemma goes diffusion! DiffusionGemma with up to 1000+ tokens per second! 🌬️ - Built on Gemma 4 as a 26B MoE model. - 3.8B parameters during inference. - Generates text in 256-token blocks in parallel. - Fits within 18 G
  • LMSYS Org (SGLang)06-12 04:04原文
  • Sundar Pichai06-10 16:19原文
  • rohanpaul_ai06-12 01:59原文
  • vLLM06-12 04:10原文
  • karminski-牙医 (AI工具)06-12 04:31原文
  • SiliconFlowAI06-11 16:24原文
  • Patrick Loeber06-09 13:17原文