Google 发布 DiffusionGemma:26B MoE 开源模型,文本扩散实现 4 倍生成加速
Google DeepMind 推出 DiffusionGemma,一款 26B 参数的混合专家(MoE)开源模型,采用文本扩散技术,在 GPU 上生成速度最高提升 4 倍。该模型在保持生成质量的同时,显著降低了推理延迟,适合对实时性要求高的场景。DiffusionGemma 已开源,开发者可直接下载使用。
Google DeepMind 推出 DiffusionGemma,一款 26B 参数的混合专家(MoE)开源模型,采用文本扩散技术,在 GPU 上生成速度最高提升 4 倍。该模型在保持生成质量的同时,显著降低了推理延迟,适合对实时性要求高的场景。DiffusionGemma 已开源,开发者可直接下载使用。
Agent Arena 团队指出,传统依赖人类偏好的评测方式无法扩展至智能体场景,因为人类难以判断30分钟轨迹中的数百次工具调用。他们构建了基于真实使用轨迹的客观信号评测方法,包括Bash错误、工具幻觉和“疯狂信号”等指标。这种方法能更准确地评估智能体在复杂任务中的表现,避免人类主观判断的局限性。该评测方法已应用于Agent Arena排行榜,为开发者提供更可靠的模型性能参考。
在最新评测中,Claude Fable 5 以综合排名第一的成绩脱颖而出,整体得分领先第二名11.2%。其在确认任务成功率上表现尤为突出,领先18.2%,同时获得更多正面评价(+30.6%)。工具幻觉控制也优于其他模型(+2.1%)。不过,在可操控性方面排名第17,下降了6.8%,表明该方面仍在稳定中。
Google 发布 DiffusionGemma,一种基于扩散模型的新型文本生成模型,速度可达 1000+ token/s,是传统自回归模型的 4 倍。它摒弃了逐词生成的方式,而是通过并行起草、纠错和精炼整段文本,实现高速生成。模型已以 Apache 2.0 协议开源,权重在 Hugging Face 上可获取,18GB 消费级显卡即可本地运行。该模型在代码、数学和复杂编辑任务上表现优异,支持实时补空、格式化和自我修复。这一发布可能颠覆文本生成的范式,从串行生成转向并行炼句。
Claude Fable 5 在全新 Agent Arena 排行榜上以最大优势超越 Opus-4.8 和 GPT-5.5,排名第一。该排行榜基于 30 万+真实任务、200 万+工具调用和 4000 万行代码评估,衡量模型在任务成功率、用户表扬/抱怨比等关键信号上的表现。Fable 5 在可完成任务上表现极佳,但可引导性较弱。Agent Arena 提供网页搜索、文件系统和终端工具,让模型完成编写代码、制作幻灯片、研究网页等复杂工作流。
Phil Schmid 发布了一篇交互式博客,深入解析 Gemini Managed Agents 的内部工作原理。该代理通过一次 API 调用即可启动一个隔离沙箱,在其中进行推理、调用工具、执行代码并读取输出,直至任务完成。博客包含一个可点击的实时模拟器,展示了执行循环、沙箱内部运作以及 API 与沙箱之间的通信过程。
Claude Code 发布 v2.1.172 版本,核心更新是子智能体现在可以递归生成自己的子智能体,最多支持 5 层深度。此外,Amazon Bedrock 集成改进了区域读取逻辑,新增插件市场搜索栏。修复了多个关键问题,包括 1M 上下文会话卡死、后台智能体读取错误项目配置、模型选择器显示错误等。性能方面优化了长对话的消息处理,减少了冗余转换。
LangChain 团队分享了他们为 SmithDB 构建自定义倒排索引的技术细节,以支持对高达数百 MB 的智能体追踪数据进行全文搜索和 JSON 过滤,同时将中位数延迟控制在 400 毫秒。他们从零开始设计索引结构,优化了存储和查询路径,解决了大规模追踪数据下的性能瓶颈。这一方案使得开发者能够高效地检索和分析复杂的智能体执行日志,对调试和优化 AI 应用至关重要。文章深入介绍了索引构建、压缩和查询优化的具体方法。
Cursor 与 Together AI 合作,为 AI 编程助手提供实时推理基础设施。Cursor 的编辑器内智能体能在开发者编辑代码时生成代码,要求响应必须在编辑器的反馈循环内完成。Together AI 构建了满足严格延迟目标的基础设施,确保大规模下的实时性能。这一合作解决了 AI 编程中响应速度的关键瓶颈,让开发者获得更流畅的交互体验。
Claude Code 的动态工作流功能现已全面可用。该功能允许 Claude 在复杂任务(如全代码库的 Bug 排查)中自主编写编排逻辑,并行运行子代理,并在结果返回给用户前进行验证。这显著提升了处理大型、多步骤任务的效率和可靠性。对于需要深度代码分析和自动化修复的开发者来说,这是一个重要的生产力提升。
小米开源了MiMo-Code,一个基于终端的AI编程助手,解决了AI在重启项目后失忆的痛点。它fork了OpenCode,增加了SQLite持久记忆、build/plan/compose三类子代理、自动checkpoint和智能上下文预算。支持跨会话记忆、Git操作、调试、TDD、代码审查和语音输入,零配置兼容任何OpenAI模型。一键curl安装,MIT协议,开发者可本地使用和修改,将AI从临时工具变为长期伙伴。
Anthropic安全团队发现,其Mythos Preview AI模型能在数小时内将Firefox和Windows内核的安全补丁转化为可工作的漏洞利用代码,成本仅需几千美元,且无需专业知识。在微软自动更新到达任何设备之前,已完成了8个完整的攻击链。Anthropic认为,传统的补丁节奏已经过时。这项研究揭示了AI在网络安全领域的新威胁,即攻击者可以迅速利用公开补丁开发出攻击工具。
Nebius 发布了 Agent Blueprint,这是一个开源参考架构,旨在解决 AI 智能体在生产环境中因基础设施问题而失败的问题。该架构连接了智能体栈各层的成熟组件,包括 Deep Agents 和 LangSmith。它提供了构建、运营和持续改进生产级智能体的标准化方案,帮助开发者避免常见陷阱。对于正在构建或计划部署 AI 智能体的团队来说,这是一个值得关注的参考框架。
Anthropic CEO Dario Amodei 发布新文章《Policy on the AI Exponential》,指出 AI 技术正以远超政策制定机构设计能力的速度发展,两者之间的差距已成为该技术的核心挑战。文章分析了当前 AI 技术所处阶段,并提出了缩小这一差距所需的具体行动。同时,Anthropic 宣布启动三项新举措,以支持文章中提出的政策建议。
Anthropic 发布首款 Mythos 级模型 Claude Fable 5,但因新数据留存规定,微软已限制员工使用该模型。Anthropic 要求留存用户提问和输出数据 30 天,违规内容最长保存两年,以运行安全分类系统。微软法务团队正在评估合规性,担心企业机密泄露风险。该模型已对 GitHub Copilot 付费客户开放,但未纳入内部员工版本。
OpenAI 宣布其模型(包括 Codex)现可通过 Oracle Cloud Infrastructure(OCI)访问,企业客户可以利用现有的 Oracle 云承诺来构建和部署 AI 应用。此举旨在为企业提供更高的安全性和治理能力,同时简化 AI 的采用流程。通过 OCI,企业可以无缝集成 OpenAI 的先进模型,而无需额外管理基础设施。这标志着 OpenAI 在企业级云服务领域的进一步扩展。
Google 研究团队提出了一种新的框架,用于审计机器学习模型是否真正实现了“遗忘”功能。该框架通过设计特定的攻击和测试方法,能够有效评估模型在删除特定数据后是否仍保留了相关信息。这项工作对于负责任的人工智能、隐私保护和数据安全至关重要,尤其是在用户要求删除个人数据的场景下。框架提供了可量化的评估指标,帮助开发者和监管机构验证模型遗忘的可靠性。
本文详细介绍了微软SkillOpt的编码实现,包括仓库搭建、OpenAI兼容模型接入、优化器与目标模型配置。通过完整的优化循环(回滚、反思、聚合、选择、更新、验证门控),评估了原始种子技能作为基线,并运行了真实优化。最后通过训练历史、准确率、编辑预算行为和Token使用可视化,对比了进化后的技能与基线性能。
Google DeepMind 推出实验性开源模型 DiffusionGemma,采用文本扩散技术,每步并行生成 256 个 token,推理速度可达 150+ TPS(DGX Spark)或 1000+ TPS(单张 H100)。该模型激活仅 3.8B 参数,量化后可在 24GB VRAM 消费级 GPU 上运行,适合代码填充、内联编辑等非线性任务。NVIDIA 从首日起提供 BF16/NVFP4 检查点、免费 GPU 加速端点及 vLLM 支持。DiffusionGemma 优先速度而非极致质量,生产场景仍推荐标准 Gemma 4。