13:31Google AI@GoogleAIGoogle 推出 Gemini 3.5 Live Translate,一款用于实时语音到语音翻译的音频模型。NotebookLM 获得重大升级,新增智能体聊天、高级推理和多种输出格式。Project Genie 向 Google AI Ultra 5x 订阅用户开放。Notebooks 在 Gemini App 中扩展至欧洲经济区、英国和瑞士。DiffusionGemma 作为实验性开源模型发布,探索文本扩散的快速生成方法。AI产品Gemini 3.5 Live TranslateNotebookLMProject GenieDiffusionGemmaGoogle推荐理由:Google 连发五款新品,语音翻译和智能体最亮眼原文
12:04LMSYS Org (SGLang)@lmsysorg精选SGLang 宣布 Day-0 支持 Google 的 DiffusionGemma 模型,这是 Gemma 4 的文本扩散变体(26B A4B MoE)。与传统逐 token 解码不同,DiffusionGemma 通过并行去噪 token 块实现极低批处理生成速度。该模型支持离散文本扩散、多模态输入(文本、图像、视频)输出文本、稀疏 MoE 架构(8/128 专家)以及可配置思考模式。开发者现在即可通过 SGLang 运行该模型。AI模型SGLangDiffusionGemmaGemma 4文本扩散MoE7 个信源在谈推荐理由:文本扩散模型大幅提升生成效率,适合需要低延迟批量推理的 AI 应用开发者,建议立即在 SGLang 中体验。原文
09:59rohanpaul_ai@rohanpaul_ai精选atomic[.]chat 在单块 H100(FP8)上对比了 DiffusionGemma(扩散文本模型)与 Gemma4 26B A4B(自回归模型)。DiffusionGemma 速度是 Gemma4 的 4 倍,改变了错误分布模式。自回归模型逐 token 生成,速度慢但精度高;扩散模型批量生成 token 再迭代修正,因此响应更快。这一对比展示了扩散模型在本地推理中的速度优势,可能改变未来本地 LLM 的部署选择。AI模型DiffusionGemmaGemma4本地推理扩散模型速度对比10 个信源在谈推荐理由:本地运行 LLM 的开发者终于有了速度新选择——DiffusionGemma 的 4 倍加速意味着更流畅的交互体验,用 atomic[.]chat 的团队可以直接在单卡上体验,值得一试。原文
11:25小互@imxiaohu78°Google 开源了 DiffusionGemma,一种基于扩散架构的语言模型,区别于逐词生成的 Transformer,它能一次性生成 256 个 tokens 的整块文本,再通过多轮迭代逐步优化。在 H100 上推理速度可达 1000+ tokens/s,RTX 5090 上 700+ tokens/s,26B 参数模型仅需 18GB 显存。其生成过程类似写草稿后反复修改,能自动修正前文错误,提升输出质量。这一开源模型为需要高吞吐、长文本生成的场景提供了新选择。AI模型GoogleDiffusionGemma扩散模型开源/仓库文本生成6 个信源在谈推荐理由:DiffusionGemma 解决了 Transformer 逐词生成速度慢、无法回头修改的痛点,做文本生成或长内容创作的开发者可以直接在消费级显卡上跑,体验 1000+ tokens/s 的生成速度。原文
11:24小互@imxiaohu精选DiffusionGemma 模型支持微调,Unsloth 团队已成功演示通过微调让该模型学会解数独。这利用了双向注意力的优势,解决了自回归模型在全局约束任务上的天然短板。在特定垂直任务上,微调后的 DiffusionGemma 质量有望追上甚至超越自回归模型。这一进展为扩散模型在需要全局推理的领域打开了新可能。AI模型DiffusionGemma微调双向注意力数独Unsloth推荐理由:做垂直任务微调的开发者值得关注——DiffusionGemma 的双向注意力让数独这类全局约束问题有了新解法,建议试试在自家任务上微调对比效果。原文
09:17berryxia@berryxia精选72°开发者 Prince Canuma 在 Google 发布 DiffusionGemma 和 Cohere North Mini Code 当天,就将这两个模型移植到了 Mac 的 MLX 框架中,实现零等待本地运行。DiffusionGemma 采用新架构,可生成 256 token 整块,支持双向注意力和迭代自纠错,26B MoE 仅激活 3.8B,量化后 18GB 内存即可运行。North Mini Code 30B MoE 只需 3B 激活参数,BF16 下推理速度达 66 tok/s。这得益于与 Google DeepMind 和 Cohere 的深度合作,实现了 Day-0 支持。用户可通过 mlx-vlm v0.6.3 一键安装体验。AI产品MLXDiffusionGemmaCohere North Mini Code本地推理开源/仓库推荐理由:Mac 开发者终于能在本地跑最新大模型了,DiffusionGemma 和 North Mini Code 都支持 Day-0 运行,做本地 AI 实验的可以直接装来玩。原文
03:03Google AI Developers@googleaidevs72°Google 发布了 DiffusionGemma,一款基于文本扩散技术的实验性开放模型,采用 Apache 2.0 许可证。该模型通过将瓶颈从内存带宽转移到原始计算,在专用 GPU 上实现高达 4 倍的 token 输出速度。推理时仅激活 3.8B 参数,量化后可在 24GB VRAM 的高端消费级 GPU 上运行。它支持并行 token 生成和自我纠正,特别适合代码填充、内联编辑和非线性结构任务。DiffusionGemma 优先考虑速度而非原始质量,在计算受限的硬件上加速效果最佳,而标准 Gemma 4 仍推荐用于生产环境和内存受限设备。AI模型文本扩散开放模型GoogleDiffusionGemma代码填充推荐理由:DiffusionGemma 把文本生成速度推到了新高度,做代码补全、实时编辑的开发者可以直接在消费级 GPU 上体验 4 倍加速,值得一试。原文
01:33Patrick Loeber@patloeberGoogle 发布了 DiffusionGemma,一种基于扩散模型的文本生成新方法,相比传统自回归模型实现了4倍的速度提升。该模型已在 Hugging Face 上以 Apache 2.0 许可证开源,允许自由使用和修改。这一突破有望大幅降低文本生成的计算成本,对需要快速响应的应用场景尤为重要。开发者可以立即下载并集成到自己的项目中。AI模型文本生成扩散模型开源/仓库GoogleDiffusionGemma推荐理由:文本生成速度提升4倍,对需要低延迟推理的开发者来说是个直接可用的利器,建议试试这个开源模型。原文
00:39Google DeepMind@GoogleDeepMindGoogle DeepMind 推出实验性开放模型 DiffusionGemma,采用块级文本生成技术,不再逐词预测,而是同时生成整段文本。该模型在专用 GPU 上输出速度提升高达 4 倍,并能实时自我修正和格式化复杂 Markdown。这标志着文本生成范式的转变,尤其适合需要快速、高质量输出的场景。AI模型DiffusionGemma文本生成块级生成速度提升开放模型推荐理由:做文本生成或需要快速格式化 Markdown 的开发者,可以试试这个块级生成模型,速度提升明显且能自我纠错,值得关注。原文
00:33elvis@omarsar0Google DeepMind 推出 DiffusionGemma,一种基于扩散的新型开放模型,可在专用 GPU 上实现最高 4 倍的输出加速。与传统逐词预测不同,它同时生成整段文本,并能在生成过程中自我纠错和实时格式化复杂 Markdown。该模型权重已在 Hugging Face 上开放。这对于文本扩散领域的研究者来说是一个重要进展,因为该方向目前仍有大量未探索的研究问题。AI模型扩散模型文本生成Google DeepMindDiffusionGemma开源/仓库推荐理由:文本扩散模型的研究者终于有了一个强大的开放基线——DiffusionGemma 同时生成整段文本并支持实时纠错,做生成式 AI 研究的团队值得下载权重试试。原文