12:10vLLM@vllm_project精选73°GoogleDeepMind 推出了 DiffusionGemma,这是一个基于 Gemma4 架构的 26B 参数扩散语言模型(dLLM),并成为 vLLM 原生支持的首个扩散语言模型。与传统自回归模型逐个生成 token 不同,DiffusionGemma 能并行去噪 256 个 token 的块,在单张 H200(FP8)上以 batch size 1 实现超过 1200 输出 token/秒的吞吐量。该模型通过 vLLM 的 model runner v2 的 ModelState 和现有推测解码路径实现,对调度器和运行器改动极小。FP8 和 NVFP4 检查点已托管在 RedHat AI 中心,由 GoogleDeepMind、RedHat AI 和 NVIDIA AI 团队合作完成。这一进展标志着扩散模型在高效文本生成领域迈出重要一步。AI模型扩散语言模型vLLMGoogleDeepMind并行生成推理加速10 个信源在谈推荐理由:DiffusionGemma 用并行去噪替代逐 token 生成,大幅提升推理速度,做大规模文本生成或实时应用的团队可以直接在 vLLM 中体验,值得关注。原文
06:50berryxia@berryxia78°Google 发布 DiffusionGemma,一种基于扩散模型的新型文本生成模型,速度可达 1000+ token/s,是传统自回归模型的 4 倍。它摒弃了逐词生成的方式,而是通过并行起草、纠错和精炼整段文本,实现高速生成。模型已以 Apache 2.0 协议开源,权重在 Hugging Face 上可获取,18GB 消费级显卡即可本地运行。该模型在代码、数学和复杂编辑任务上表现优异,支持实时补空、格式化和自我修复。这一发布可能颠覆文本生成的范式,从串行生成转向并行炼句。AI模型扩散模型文本生成开源/仓库Google并行生成推荐理由:DiffusionGemma 把文本生成速度拉到 4 倍,还彻底开源,做本地部署或加速日常 workflow 的开发者可以直接拖权重玩。原文
03:06NVIDIA AI@NVIDIAAI76°Google DeepMind 推出实验性开源模型 DiffusionGemma,采用文本扩散技术,每步并行生成 256 个 token,推理速度可达 150+ TPS(DGX Spark)或 1000+ TPS(单张 H100)。该模型激活仅 3.8B 参数,量化后可在 24GB VRAM 消费级 GPU 上运行,适合代码填充、内联编辑等非线性任务。NVIDIA 从首日起提供 BF16/NVFP4 检查点、免费 GPU 加速端点及 vLLM 支持。DiffusionGemma 优先速度而非极致质量,生产场景仍推荐标准 Gemma 4。AI模型文本扩散并行生成开源模型Google DeepMindNVIDIA10 个信源在谈推荐理由:文本扩散模型把生成速度拉到新高度,做代码补全或实时编辑的开发者可以直接在 NVIDIA 端点试跑,感受并行 token 的爽感。原文
18:05Google AI Developers@googleaidevsGoogle AI Studio 展示了一个使用 Gemini 3.5 Flash 构建的“氛围编码”应用,能够并行生成 6 个 UI 设计变体,用于快速原型设计。该演示突出了 Gemini 3.5 Flash 在处理多任务和加速工作流方面的能力,尤其适合需要快速迭代的设计师和开发者。通过并行生成,用户可以在短时间内探索多种设计方案,显著提升效率。这一功能展示了 AI 在创意工作流中的实际应用潜力。AI产品Gemini 3.5 FlashGoogle AI StudioUI 设计快速原型并行生成推荐理由:UI/UX 设计师和前端开发者可以借助 Gemini 3.5 Flash 的并行生成能力,将原型迭代时间从小时级压缩到分钟级,建议直接体验 Google AI Studio 中的这个 demo。原文
08:44NVIDIA AI@NVIDIAAI76°NVIDIA 发布了 Nemotron-Labs-Diffusion 系列扩散语言模型,与传统逐 token 生成不同,该模型能在单次推理中并行生成多个 token,并支持在生成过程中进行修订。这种设计充分利用了现代 GPU 的并行计算能力,显著提升推理速度。模型系列包含 3B 到 14B 参数规模,并提供了视觉-语言变体。目前该模型已开源可用。AI模型扩散模型并行生成NVIDIANemotron推理加速推荐理由:NVIDIA 的扩散语言模型打破了传统逐 token 生成瓶颈,做推理加速或大模型部署的团队可以直接拿来提升 GPU 利用率,值得关注。原文