单卡700TPS！Google发布Diffusion Gemma，26B模型4B激活

精选理由

Diffusion Gemma把文本生成速度拉到单卡700TPS，做实时对话或高吞吐推理的团队可以直接用，4bit量化16G显存就能跑，值得试试能否做投机解码的草稿模型。

AI 摘要

Google发布了Gemma小模型的Diffusion版本，名为Diffusion Gemma，大小26B但激活参数量仅4B。与NVIDIA合作针对RTX 4090和5090优化，5090上每秒可生成700+ token。Diffusion模型像刮奖一样逐片生成文本，速度远快于传统逐字生成模型，但输出质量略低。在AIME 2026数学测试中达到Gemma4-26B-A4B的94%水平，在Agent能力测试中达到82%。4bit量化版本仅需16G显存即可运行。

AI 翻译 · 中文

karminski-牙医 (AI工具)单卡 700TPS! Diffusion Gemma 来了! Google 刚刚发布了 Gemma 小模型的 Diffusion 版本! 大小26B, 激活参数量4B, 最重要的是, 这次还跟 NVIDIA 合作针对4090和5090优化了一波, 5090每秒能生成700+token! 给不知道什么是 Diffusion 大模型的同学科普一下, 传统大模型都是一个字一个字吐出来的, 而 Diffusion 大模型则是如同刮奖一样, 是一…

NVIDIA AI06-10 18:05原文
LMSYS Org (SGLang)06-12 04:04原文
vLLM06-12 04:10原文
Sundar Pichai06-10 16:19原文
Philipp Schmid06-10 16:24原文
Decoder06-10 19:20原文
Simon Willison’s Weblog06-10 20:00原文
SiliconFlowAI06-11 16:24原文
rohanpaul_ai06-12 01:59原文
Tri Dao (FlashAttention)06-12 04:20原文

查看原推