AI模型精选

单卡700TPS!Google发布Diffusion Gemma,26B模型4B激活

单卡 700TPS! Diffusion Gemma 来了! Google 刚刚发布了 Gemma…

精选理由

Diffusion Gemma把文本生成速度拉到单卡700TPS,做实时对话或高吞吐推理的团队可以直接用,4bit量化16G显存就能跑,值得试试能否做投机解码的草稿模型。

AI 摘要

Google发布了Gemma小模型的Diffusion版本,名为Diffusion Gemma,大小26B但激活参数量仅4B。与NVIDIA合作针对RTX 4090和5090优化,5090上每秒可生成700+ token。Diffusion模型像刮奖一样逐片生成文本,速度远快于传统逐字生成模型,但输出质量略低。在AIME 2026数学测试中达到Gemma4-26B-A4B的94%水平,在Agent能力测试中达到82%。4bit量化版本仅需16G显存即可运行。

AI 翻译 · 中文

Google发布了Gemma小模型的Diffusion版本,名为Diffusion Gemma,大小26B但激活参数量仅4B。与NVIDIA合作针对RTX 4090和5090优化,5090上每秒可生成700+ token。Diffusion模型像刮奖一样逐片生成文本,速度远快于传统逐字生成模型,但输出质量略低。在AIME 2026数学测试中达到Gemma4-26B-A4B的94%水平,在Agent能力测试中达到82%。4bit量化版本仅需16G显存即可运行。

karminski-牙医 (AI工具)单卡 700TPS! Diffusion Gemma 来了! Google 刚刚发布了 Gemma 小模型的 Diffusion 版本! 大小26B, 激活参数量4B, 最重要的是, 这次还跟 NVIDIA 合作针对4090和5090优化了一波, 5090每秒能生成700+token! 给不知道什么是 Diffusion 大模型的同学科普一下, 传统大模型都是一个字一个字吐出来的, 而 Diffusion 大模型则是如同刮奖一样, 是一
  • NVIDIA AI06-10 18:05原文
  • LMSYS Org (SGLang)06-12 04:04原文
  • vLLM06-12 04:10原文
  • Sundar Pichai06-10 16:19原文
  • Philipp Schmid06-10 16:24原文
  • Decoder06-10 19:20原文
  • Simon Willison’s Weblog06-10 20:00原文
  • SiliconFlowAI06-11 16:24原文
  • rohanpaul_ai06-12 01:59原文
  • Tri Dao (FlashAttention)06-12 04:20原文