AITOP 日报｜2026年6月11日｜RL训练提速8成，AI对齐新方向，智体编程新基准

模型发布/更新

Model Releases

3 篇

Google 发布 DiffusionGemma：26B MoE 开源模型，文本扩散实现 4 倍生成加速

X·KOLX：marktechpost (@Asif Razzaq)原文 ↗

Google DeepMind 推出 DiffusionGemma，一款 26B 参数的混合专家（MoE）开源模型，采用文本扩散技术，在 GPU 上生成速度最高提升 4 倍。该模型在保持生成质量的同时，显著降低了推理延迟，适合对实时性要求高的场景。DiffusionGemma 已开源，开发者可直接下载使用。

Cohere 发布 North Mini Code：30B MoE 模型，3B 活跃参数专为智能体编程

X·KOLX：marktechpost (@Asif Razzaq)原文 ↗

Cohere 推出了其首个面向开发者的编程模型 North Mini Code，采用混合专家架构，总参数量 30B，但每次推理仅激活 3B 参数，可在单张 H100 GPU 上运行。该模型支持 256K 上下文长度，专为智能体编程场景设计，能够高效处理代码生成、调试和自动化任务。作为开源权重模型，它降低了开发者部署高性能编程模型的门槛，尤其适合资源受限的团队。这一发布标志着 Cohere 正式进入 AI 编程助手领域，与 Code Llama、StarCoder 等模型竞争。

Claude Fable 5 登顶 Code Arena 前端榜首，大幅领先 Opus-4.8

X·KOLX：lmarena.ai (@lmarena_ai)原文 ↗

Claude Fable 5 在 Code Arena 前端榜单中排名第一，全面领先 Opus-4.8。它在所有子榜单（HTML、React）和所有子类别（品牌营销、参考设计、数据分析、消费产品、游戏、模拟、内容创作工具）中均位列第一。同时，Fable 5 在 Agent Arena 中也以最大优势领先 Opus-4.8 和 GPT-5.5，在任务成功率和用户评价上表现突出，尽管可操控性稍弱。该模型在数百万真实世界长期代理任务中测试，涵盖代码编写、幻灯片制作、网页研究、应用构建和文档分析。Anthropic 的这一里程碑标志着前端开发与智能体领域的重要进步。

产品发布/更新

Product

4 篇

Claude Code v2.1.172：子智能体可递归生成，修复多项稳定性问题

X·KOLX：Claude Code: GitHub Releases (@ashwin-ant)原文 ↗

Claude Code 发布 v2.1.172 版本，核心更新是子智能体现在可以递归生成自己的子智能体，最多支持 5 层深度。此外，Amazon Bedrock 集成改进了区域读取逻辑，新增插件市场搜索栏。修复了多个关键问题，包括 1M 上下文会话卡死、后台智能体读取错误项目配置、模型选择器显示错误等。性能方面优化了长对话的消息处理，减少了冗余转换。

PROJECTMEM：本地优先、事件溯源的 AI 编程助手记忆层

X·KOLX：arXiv cs.AI (@Ripon Chandra Malo, Tong Qiu)原文 ↗

AI 编程助手目前每次新会话都需要重新读取项目文件、重新推导之前的决策，甚至重复失败的调试尝试，消耗大量 token。PROJECTMEM 是一个开源、本地优先的记忆与判断层，通过不可变的事件日志记录开发过程（问题、尝试、修复、决策、笔记），并通过 MCP 协议生成紧凑的 AI 可读摘要。它还能在代理执行前发出警告，防止重复失败修复或编辑脆弱文件，实现“记忆即治理”。该系统完全离线运行，无遥测，日志可作为可审计的溯源链。项目包含 14 个 MCP 工具、19 个 CLI 命令，并在 10 个项目、207 个事件的自我研究中得到验证。

LangChain 为 SmithDB 构建自定义倒排索引，实现百 MB 级智能体追踪的全文搜索与 JSON 过滤

X·KOLX：LangChain (@LangChainAI)原文 ↗

LangChain 团队分享了他们为 SmithDB 构建自定义倒排索引的技术细节，以支持对高达数百 MB 的智能体追踪数据进行全文搜索和 JSON 过滤，同时将中位数延迟控制在 400 毫秒。他们从零开始设计索引结构，优化了存储和查询路径，解决了大规模追踪数据下的性能瓶颈。这一方案使得开发者能够高效地检索和分析复杂的智能体执行日志，对调试和优化 AI 应用至关重要。文章深入介绍了索引构建、压缩和查询优化的具体方法。

LangChain 为 Deep Agents 添加 RubricMiddleware

X·KOLX：LangChain (@LangChainAI)原文 ↗

LangChain 在 Deep Agents 中新增了 RubricMiddleware 功能，用于定义任务完成的明确标准。该中间件能让智能体持续执行直到达到预设的完成条件，解决了智能体任务执行中缺乏明确终止判断的问题。这对于需要精确控制任务完成状态的自动化场景非常有用。

行业动态

Industry

4 篇

Anthropic研究：AI数小时内将安全补丁转为漏洞利用

X·KOLX：Decoder (@Matthias Bastian)原文 ↗

Anthropic安全团队发现，其Mythos Preview AI模型能在数小时内将Firefox和Windows内核的安全补丁转化为可工作的漏洞利用代码，成本仅需几千美元，且无需专业知识。在微软自动更新到达任何设备之前，已完成了8个完整的攻击链。Anthropic认为，传统的补丁节奏已经过时。这项研究揭示了AI在网络安全领域的新威胁，即攻击者可以迅速利用公开补丁开发出攻击工具。

OpenAI 收购云初创公司 Ona，强化 AI 智能体基础设施

X·KOLX：PolymarketMoney (@PolymarketMoney)原文 ↗

OpenAI 宣布收购云初创公司 Ona，该公司专注于构建支持 AI 智能体持续运行的基础设施。此次收购旨在增强 OpenAI 在智能体领域的长期部署能力，解决智能体在复杂任务中需要持久运行的问题。Ona 的技术将帮助 OpenAI 的智能体更稳定地处理长时间工作流，提升可靠性和效率。这一举措标志着 OpenAI 在智能体基础设施上的战略布局，可能加速其产品在企业级场景中的应用。

工信部2026-2028规划：加速高端光电芯片与AI通信研发

X·KOLX：Pandaily (@contact@pandaily.com (Pandaily))原文 ↗

中国工信部发布2026-2028年政策规划，要求加快高端光电芯片、800Gbps骨干网络和AI兼容通信基础设施的研发。该计划旨在提升中国在AI通信领域的技术自主性，应对全球芯片竞争。关键细节包括重点突破光电芯片制造、高速光传输和AI网络优化技术，以支撑下一代AI应用。

DeepSeek 全球首招 Agent Harness 研究员，定义模型到产品的桥梁

X·KOLX：宝玉 (@dotey)原文 ↗

DeepSeek 发布全球首个“Agent Harness 研究员”岗位，旨在将前沿模型能力转化为领先的 Agent 产品。该岗位负责 Harness 领域的前沿创新，包括上下文管理、长期记忆、Subagent 与 Multi-Agent、自进化 Agent 等。团队使命是“Model + Harness = Agent”，除模型本身外所有工作都属于 Harness 范畴。任职要求包括科研背景、全栈开发能力、Agent 重度使用经验，以及对 LLM 和 Agent 机制的深入理解。这一招聘标志着 Agent 基础设施研究正式成为独立岗位，对 Agent 开发者和研究者意义重大。

论文研究

Research

3 篇

Bebop 突破熵界：MTP+拒绝采样加速 RL 训练 1.8 倍

X·KOLX：arXiv cs.LG (@Yucheng Li, Huiqiang Jiang, Yang Xu, Jianxin Yang, Yi Zhang, Yizhong Cao, Yuhao Shen, Fan Zhou, Rui Men, Jianwei Zhang, An Yang, Bowen Yu, Bo Zheng, Fei Huang, Junyang Lin, Dayiheng Liu, Jingren Zhou)原文 ↗

强化学习（RL）训练中，rollout 阶段是主要瓶颈。多 Token 预测（MTP）本可通过推测解码加速，但 RL 训练中 MTP 接受率会因模型熵波动而显著下降。Bebop 研究揭示了熵与接受率的负线性关系，并提出概率拒绝采样可缓解熵干扰。他们进一步提出端到端 TV 损失函数，直接优化拒绝采样接受率，在数学推理、代码生成和智能体任务上实现最高 95% 接受率，吞吐量提升 25%。在 Qwen3.5/3.6/3.7 模型上，异步 RL 训练端到端加速达 1.8 倍，且无需在线更新 MTP。

RACES：将可验证环境视为乐高积木，递归组合提升推理泛化

X·KOLX：arXiv: DeepSeek (@Hao Xiang, Qiaoyu Tang, Le Yu, Yaojie Lu, Xianpei Han, Ben He, Le Sun, Bowen Yu, Peng Wang, Hongyu Lin, Dayiheng Liu)原文 ↗

RACES 提出一种递归自动组合框架，将可验证环境视为可组合的积木块，通过定义 SEQUENTIAL、PARALLEL、SORT、SELECT 等组合算子，自动融合环境以生成多样化的推理模式。实验表明，基于组合环境的强化学习训练能持续提升推理泛化能力：在 6 个未见基准上，DeepSeek-R1-Distill-Qwen-14B 平均提升 3.1 分，Qwen3-14B 从 58.8 提升至 61.1。仅用 50 个基础环境即可达到 300 个独立环境的训练效果，显著提高环境利用效率。该方法解决了手动构建环境线性扩展的瓶颈，为 LLM 推理能力扩展提供了可扩展的新路径。

PDE约束逆问题：伴随方法与PINN公平对比

X·KOLX：arXiv cs.LG (@Zhen Zhang, Alessandro Alla, George Em Karniadakis)原文 ↗

该研究对偏微分方程约束逆问题中的伴随优化方法和物理信息神经网络进行了公平对比。通过统一抽象公式、匹配优化器、参数化及精度，在多个基准测试（如非稳态Burgers方程、噪声Darcy渗透率反演、三维Allen-Cahn反应识别、非稳态Navier-Stokes粘度识别）中评估两者性能。结果表明，未知参数的表示形式决定方法优劣：网格基场适合离散伴随，而神经表示是PINN的天然优势。对于时间依赖问题，伴随方法受轨迹存储和微分成本制约，而PINN能以更低成本获得满意重建。PINN热启动伴随策略能以大幅降低的成本恢复伴随级精度。

212

今日事件

一手报道

新模型

信源