精选理由
文本扩散模型把生成速度拉到新高度,做代码补全或实时编辑的开发者可以直接在 NVIDIA 端点试跑,感受并行 token 的爽感。
Google DeepMind 推出实验性开源模型 DiffusionGemma,采用文本扩散技术,每步并行生成 256 个 token,推理速度可达 150+ TPS(DGX Spark)或 1000+ TPS(单张 H100)。该模型激活仅 3.8B 参数,量化后可在 24GB VRAM 消费级 GPU 上运行,适合代码填充、内联编辑等非线性任务。NVIDIA 从首日起提供 BF16/NVFP4 检查点、免费 GPU 加速端点及 vLLM 支持。DiffusionGemma 优先速度而非极致质量,生产场景仍推荐标准 Gemma 4。
AI 翻译 · 中文
Google DeepMind 推出实验性开源模型 DiffusionGemma,采用文本扩散技术,每步并行生成 256 个 token,推理速度可达 150+ TPS(DGX Spark)或 1000+ TPS(单张 H100)。该模型激活仅 3.8B 参数,量化后可在 24GB VRAM 消费级 GPU 上运行,适合代码填充、内联编辑等非线性任务。NVIDIA 从首日起提供 BF16/NVFP4 检查点、免费 GPU 加速端点及 vLLM 支持。DiffusionGemma 优先速度而非极致质量,生产场景仍推荐标准 Gemma 4。
Congrats to @GoogleDeepMind on the launch of DiffusionGemma. The model generates 256 tokens in parallel per step, delivering 150+ TPS on DGX Spark, and 1,000+ TPS on a single H100. We're supporting it from day one wi…