全部 AI 动态 · AI 热点

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

12:04

12:04

LMSYS Org (SGLang)@lmsysorg

精选

SGLang 宣布 Day-0 支持 Google 的 DiffusionGemma 模型，这是 Gemma 4 的文本扩散变体（26B A4B MoE）。与传统逐 token 解码不同，DiffusionGemma 通过并行去噪 token 块实现极低批处理生成速度。该模型支持离散文本扩散、多模态输入（文本、图像、视频）输出文本、稀疏 MoE 架构（8/128 专家）以及可配置思考模式。开发者现在即可通过 SGLang 运行该模型。

AI模型 SGLang DiffusionGemma Gemma 4 文本扩散 MoE

推荐理由：文本扩散模型大幅提升生成效率，适合需要低延迟批量推理的 AI 应用开发者，建议立即在 SGLang 中体验。

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

06:13

06:13

Sundar Pichai@sundarpichai

78°

Google 发布了 DiffusionGemma，这是一个基于 Gemma 4 的实验性开放模型，采用文本扩散技术。与传统逐词预测不同，DiffusionGemma 能同时生成整段文本，实现高达 4 倍的推理加速。该模型目前以研究预览形式开放，旨在探索更高效的文本生成方式。这对于需要低延迟文本生成的场景（如实时对话、内容创作）具有重要意义。

AI模型文本扩散推理加速 Gemma 4 开放模型 Google

推荐理由：推理速度提升 4 倍意味着更低的延迟和更低的成本，做实时文本生成或大规模内容生产的团队值得关注这个新方向。

03:06

03:06

NVIDIA AI@NVIDIAAI

76°

Google DeepMind 推出实验性开源模型 DiffusionGemma，采用文本扩散技术，每步并行生成 256 个 token，推理速度可达 150+ TPS（DGX Spark）或 1000+ TPS（单张 H100）。该模型激活仅 3.8B 参数，量化后可在 24GB VRAM 消费级 GPU 上运行，适合代码填充、内联编辑等非线性任务。NVIDIA 从首日起提供 BF16/NVFP4 检查点、免费 GPU 加速端点及 vLLM 支持。DiffusionGemma 优先速度而非极致质量，生产场景仍推荐标准 Gemma 4。

AI模型文本扩散并行生成开源模型 Google DeepMind NVIDIA

推荐理由：文本扩散模型把生成速度拉到新高度，做代码补全或实时编辑的开发者可以直接在 NVIDIA 端点试跑，感受并行 token 的爽感。

03:03

03:03

Google AI Developers@googleaidevs

72°

Google 发布了 DiffusionGemma，一款基于文本扩散技术的实验性开放模型，采用 Apache 2.0 许可证。该模型通过将瓶颈从内存带宽转移到原始计算，在专用 GPU 上实现高达 4 倍的 token 输出速度。推理时仅激活 3.8B 参数，量化后可在 24GB VRAM 的高端消费级 GPU 上运行。它支持并行 token 生成和自我纠正，特别适合代码填充、内联编辑和非线性结构任务。DiffusionGemma 优先考虑速度而非原始质量，在计算受限的硬件上加速效果最佳，而标准 Gemma 4 仍推荐用于生产环境和内存受限设备。

AI模型文本扩散开放模型 Google DiffusionGemma 代码填充

推荐理由：DiffusionGemma 把文本生成速度推到了新高度，做代码补全、实时编辑的开发者可以直接在消费级 GPU 上体验 4 倍加速，值得一试。

02:54

02:54

marktechpost@Asif Razzaq

76°

Google DeepMind 推出 DiffusionGemma，一款 26B 参数的混合专家（MoE）开源模型，采用文本扩散技术，在 GPU 上生成速度最高提升 4 倍。该模型在保持生成质量的同时，显著降低了推理延迟，适合对实时性要求高的场景。DiffusionGemma 已开源，开发者可直接下载使用。

AI模型 DiffusionGemma Google DeepMind MoE 文本扩散开源模型

推荐理由：做文本生成或实时 AI 应用的开发者，这个模型用扩散方法把生成速度翻了 4 倍，值得下载实测。

5月27日

03:35

03:35

NVIDIA AI@NVIDIAAI

NVIDIA AI 官方账号在 X 平台发布 Nemotron Labs 的最新研究成果，聚焦文本扩散模型与弹性推理技术。文本扩散模型是一种新型生成式 AI 方法，能够更高效地处理文本生成任务，而弹性推理则旨在优化推理过程中的计算资源分配，提升模型在复杂任务中的表现。该技术有望降低大模型的部署成本，并提高推理速度，对 AI 研究和应用开发者具有重要参考价值。

论文文本扩散弹性推理 NVIDIA Nemotron Labs 推理优化

推荐理由：NVIDIA 在文本生成和推理效率上的新突破，做 NLP 或大模型部署的团队值得关注，能直接启发你优化模型性能。