12:04LMSYS Org (SGLang)@lmsysorg精选SGLang 宣布 Day-0 支持 Google 的 DiffusionGemma 模型,这是 Gemma 4 的文本扩散变体(26B A4B MoE)。与传统逐 token 解码不同,DiffusionGemma 通过并行去噪 token 块实现极低批处理生成速度。该模型支持离散文本扩散、多模态输入(文本、图像、视频)输出文本、稀疏 MoE 架构(8/128 专家)以及可配置思考模式。开发者现在即可通过 SGLang 运行该模型。AI模型SGLangDiffusionGemmaGemma 4文本扩散MoE7 个信源在谈推荐理由:文本扩散模型大幅提升生成效率,适合需要低延迟批量推理的 AI 应用开发者,建议立即在 SGLang 中体验。原文
06:13Sundar Pichai@sundarpichai78°Google 发布了 DiffusionGemma,这是一个基于 Gemma 4 的实验性开放模型,采用文本扩散技术。与传统逐词预测不同,DiffusionGemma 能同时生成整段文本,实现高达 4 倍的推理加速。该模型目前以研究预览形式开放,旨在探索更高效的文本生成方式。这对于需要低延迟文本生成的场景(如实时对话、内容创作)具有重要意义。AI模型文本扩散推理加速Gemma 4开放模型Google7 个信源在谈推荐理由:推理速度提升 4 倍意味着更低的延迟和更低的成本,做实时文本生成或大规模内容生产的团队值得关注这个新方向。原文
03:06NVIDIA AI@NVIDIAAI76°Google DeepMind 推出实验性开源模型 DiffusionGemma,采用文本扩散技术,每步并行生成 256 个 token,推理速度可达 150+ TPS(DGX Spark)或 1000+ TPS(单张 H100)。该模型激活仅 3.8B 参数,量化后可在 24GB VRAM 消费级 GPU 上运行,适合代码填充、内联编辑等非线性任务。NVIDIA 从首日起提供 BF16/NVFP4 检查点、免费 GPU 加速端点及 vLLM 支持。DiffusionGemma 优先速度而非极致质量,生产场景仍推荐标准 Gemma 4。AI模型文本扩散并行生成开源模型Google DeepMindNVIDIA10 个信源在谈推荐理由:文本扩散模型把生成速度拉到新高度,做代码补全或实时编辑的开发者可以直接在 NVIDIA 端点试跑,感受并行 token 的爽感。原文
03:03Google AI Developers@googleaidevs72°Google 发布了 DiffusionGemma,一款基于文本扩散技术的实验性开放模型,采用 Apache 2.0 许可证。该模型通过将瓶颈从内存带宽转移到原始计算,在专用 GPU 上实现高达 4 倍的 token 输出速度。推理时仅激活 3.8B 参数,量化后可在 24GB VRAM 的高端消费级 GPU 上运行。它支持并行 token 生成和自我纠正,特别适合代码填充、内联编辑和非线性结构任务。DiffusionGemma 优先考虑速度而非原始质量,在计算受限的硬件上加速效果最佳,而标准 Gemma 4 仍推荐用于生产环境和内存受限设备。AI模型文本扩散开放模型GoogleDiffusionGemma代码填充推荐理由:DiffusionGemma 把文本生成速度推到了新高度,做代码补全、实时编辑的开发者可以直接在消费级 GPU 上体验 4 倍加速,值得一试。原文
02:54marktechpost@Asif Razzaq76°Google DeepMind 推出 DiffusionGemma,一款 26B 参数的混合专家(MoE)开源模型,采用文本扩散技术,在 GPU 上生成速度最高提升 4 倍。该模型在保持生成质量的同时,显著降低了推理延迟,适合对实时性要求高的场景。DiffusionGemma 已开源,开发者可直接下载使用。AI模型DiffusionGemmaGoogle DeepMindMoE文本扩散开源模型推荐理由:做文本生成或实时 AI 应用的开发者,这个模型用扩散方法把生成速度翻了 4 倍,值得下载实测。原文
03:35NVIDIA AI@NVIDIAAINVIDIA AI 官方账号在 X 平台发布 Nemotron Labs 的最新研究成果,聚焦文本扩散模型与弹性推理技术。文本扩散模型是一种新型生成式 AI 方法,能够更高效地处理文本生成任务,而弹性推理则旨在优化推理过程中的计算资源分配,提升模型在复杂任务中的表现。该技术有望降低大模型的部署成本,并提高推理速度,对 AI 研究和应用开发者具有重要参考价值。论文文本扩散弹性推理NVIDIANemotron Labs推理优化2 个信源在谈推荐理由:NVIDIA 在文本生成和推理效率上的新突破,做 NLP 或大模型部署的团队值得关注,能直接启发你优化模型性能。原文