06:54IT之家(博客/媒体)72°谷歌发布 DiffusionGemma,一种基于文本扩散机制的开源 AI 模型,在本地推理速度上比传统自回归模型快 4 倍。该模型通过并行处理所有 token 并逐步去噪生成输出,避免了自回归模型在低带宽环境下的计算浪费。在单块 H100 GPU 上可达每秒 1000 token,DGX Station 上达每秒 2000 token。代码生成和数学推理能力出色,但科学推理等部分基准仍有短板。模型采用 Apache 2.0 开源,可从 Hugging Face 下载。AI模型扩散模型谷歌Gemma本地推理开源6 个信源在谈推荐理由:本地 AI 推理终于有了速度突破——DiffusionGemma 让低带宽设备也能高效运行,做边缘部署或本地应用的开发者可以直接从 Hugging Face 下载试试。原文