12:10vLLM@vllm_project精选73°GoogleDeepMind 推出了 DiffusionGemma,这是一个基于 Gemma4 架构的 26B 参数扩散语言模型(dLLM),并成为 vLLM 原生支持的首个扩散语言模型。与传统自回归模型逐个生成 token 不同,DiffusionGemma 能并行去噪 256 个 token 的块,在单张 H200(FP8)上以 batch size 1 实现超过 1200 输出 token/秒的吞吐量。该模型通过 vLLM 的 model runner v2 的 ModelState 和现有推测解码路径实现,对调度器和运行器改动极小。FP8 和 NVFP4 检查点已托管在 RedHat AI 中心,由 GoogleDeepMind、RedHat AI 和 NVIDIA AI 团队合作完成。这一进展标志着扩散模型在高效文本生成领域迈出重要一步。AI模型扩散语言模型vLLMGoogleDeepMind并行生成推理加速10 个信源在谈推荐理由:DiffusionGemma 用并行去噪替代逐 token 生成,大幅提升推理速度,做大规模文本生成或实时应用的团队可以直接在 vLLM 中体验,值得关注。原文
AITOP5月29日 08:02Opus 4.8发布:编程助手的“静默时刻”,是解放开发者,还是新门槛?🔥Anthropic 把 AI 编程的“确认键”彻底删掉了!Claude Code 搭载全新 Opus 4.8 模型,长时间任务不跑偏、不废话、不中断,像一个资深工程师一样默默干活,从功能开发到漏洞清扫全包圆,你在旁边喝茶等结果就行。过去 AI 写代码三步一问“这样可以吗”,现在它直接交完整交付物……自主编程的最后一层窗户纸,被捅破了。做自动化开发和代码审查的团队,这个模型建议直接上手,效率差距肉眼可见……