12:10vLLM@vllm_project精选73°GoogleDeepMind 推出了 DiffusionGemma,这是一个基于 Gemma4 架构的 26B 参数扩散语言模型(dLLM),并成为 vLLM 原生支持的首个扩散语言模型。与传统自回归模型逐个生成 token 不同,DiffusionGemma 能并行去噪 256 个 token 的块,在单张 H200(FP8)上以 batch size 1 实现超过 1200 输出 token/秒的吞吐量。该模型通过 vLLM 的 model runner v2 的 ModelState 和现有推测解码路径实现,对调度器和运行器改动极小。FP8 和 NVFP4 检查点已托管在 RedHat AI 中心,由 GoogleDeepMind、RedHat AI 和 NVIDIA AI 团队合作完成。这一进展标志着扩散模型在高效文本生成领域迈出重要一步。AI模型扩散语言模型vLLMGoogleDeepMind并行生成推理加速10 个信源在谈推荐理由:DiffusionGemma 用并行去噪替代逐 token 生成,大幅提升推理速度,做大规模文本生成或实时应用的团队可以直接在 vLLM 中体验,值得关注。原文
05:12ollama@ollamaGoogleDeepMind 的 Gemma 4-12B 模型现已可通过 Ollama 直接使用,支持 MLX 框架。用户可通过 `ollama run gemma4:12b-mlx` 命令快速启动聊天,还支持 Hermes Agent、Claude Code 等工具的集成。这为开发者提供了便捷的本地部署和实验途径,尤其适合在 Apple Silicon 设备上高效运行。AI产品OllamaGemma 4MLX本地部署GoogleDeepMind10 个信源在谈推荐理由:Ollama 让 Gemma 4-12B 的本地部署门槛降到最低,做模型实验或本地 Agent 开发的团队可以直接跑起来,省去繁琐配置。原文