AITOP 日报｜2026年6月9日｜AI 智能体进化加速：推理、信任与安全齐突破

模型发布/更新

Model Releases

5 篇

NVIDIA Blackwell 平台用 NVFP4 精度训练 Llama 3 8B/405B，速度提升 1.31-1.73 倍且零精度损失

X·KOLX：NVIDIA AI (@NVIDIAAI)原文 ↗

NVIDIA 在 Blackwell 平台上使用 NVFP4 精度训练了 Llama 3 8B 和 405B 模型。实验结果显示，相比 FP8 精度，NVFP4 实现了 1.31 到 1.73 倍的训练速度提升，且未出现任何精度损失。这一突破意味着大模型训练可以在更短的时间内完成，同时保持模型质量。对于需要大规模训练 AI 模型的团队来说，这能显著降低计算成本和等待时间。

Cognition 推出 FrontierCode：将 Coding 评估标准从可用提升到可合并，Claude Opus 4.8 领先

X·KOLX：shao__meng (@shao__meng)原文 ↗

Cognition 发布 FrontierCode 评估基准，旨在衡量 AI 模型生成代码的“可合并性”，而非仅通过单元测试。该基准包含 150 个来自 36 个旗舰开源仓库的任务，由 20 多位维护者参与，每个任务耗时 40 小时以上。评估沿六个维度（行为正确性、回归安全、机械整洁、测试质量、Scope 纪律、代码质量）打分，并设置 blocker 和 non-blocker 标准。结果中 Claude Opus 4.8 在 Diamond 子集得分 13.4%，GPT-5.5 为 6.3%，Kimi K2.6 仅 3.8%，显示前沿模型仍有巨大提升空间。

微软Lens：3.8B参数图像模型靠详细标注胜过更大模型

X·KOLX：Decoder (@Jonathan Kemper)原文 ↗

微软研究院推出Lens，一个仅3.8B参数的文本到图像模型，在基准测试中匹配更大模型，训练成本大幅降低。其关键创新是使用GPT-4.1生成的8亿条详细图像描述，而非模糊的网页替代文本。代码和权重已开源。这表明高质量标注比模型规模更重要。

UniSound U2 模型发布：效率优先，跻身中国大模型第一梯队

X·KOLX：Pandaily (@contact@pandaily.com (Pandaily))原文 ↗

UniSound 发布了其通用基础模型 U2，该模型以效率优先为特色，在保持竞争力的同时将 token 消耗降低了 25%。U2 的推出标志着 UniSound 正式进入中国大模型的第一梯队。该模型通过优化架构和训练策略，实现了更低的推理成本，对于需要大规模部署 LLM 的企业来说是一个重要进展。U2 的发布也反映了中国大模型领域从单纯追求参数规模转向注重实际应用效率的趋势。

MiMo V2.5 Pro UltraSpeed 每秒1000 Token，万亿参数模型实测

X·KOLX：歸藏(guizang.ai) (@op7418)原文 ↗

MiMo 推出 V2.5 Pro UltraSpeed 模型，实现每秒输出超过 1000 Token，成为全球首个达到此速度的万亿参数模型。实测中，复杂 3D 游戏生成峰值达 1426 Token/s，32 秒输出 25624 Token。该模型在保持高推理速度的同时，未出现能力下降，适合 Agent 和并发场景。藏师傅的测试显示，其首次响应时间低至 0.83 秒，代码生成质量高。目前面向 To B 客户，成本有待优化。

产品发布/更新

Product

5 篇

腾讯混元开源UniRL：统一多模态强化学习框架

X·KOLX：Hunyuan (@TXhunyuan)原文 ↗

腾讯混元开源了UniRL，一个统一的多模态强化学习训练框架。它用一个循环（生成→评分→优势计算→更新→同步）覆盖文本、图像、视频等多种模态，模型和算法作为独立轴，实现模型×算法的组合覆盖。内置FlowDPPO和DRPO两种原创算法，分别针对扩散模型和LLM的强化学习优化。支持可插拔的rollout引擎、FSDP2分片和三种部署模式，旨在解决现有RL栈只能处理单一模态的问题。

腾讯发布WorkBuddy企业版与Agent Suite，全面布局AI智能体战略

X·KOLX：Pandaily (@contact@pandaily.com (Pandaily))原文 ↗

腾讯正式推出WorkBuddy企业版，采用“专家+助手+团队”三层智能体模型，并同步发布Agent Suite生态系统。该战略旨在将腾讯打造为企业级AI工作流统一平台，通过分层智能体协同提升企业效率。WorkBuddy企业版整合了多个AI助手，支持复杂任务分解与团队协作，Agent Suite则提供开放生态，允许企业定制和集成第三方智能体。此举标志着腾讯在AI企业服务领域的全面发力，与微软、谷歌等巨头展开竞争。

Claude Code v2.1.169：安全模式、目录切换与多项修复

X·KOLX：Claude Code: GitHub Releases (@ashwin-ant)原文 ↗

Anthropic 发布了 Claude Code v2.1.169 版本，新增 --safe-mode 标志，可禁用所有自定义配置（CLAUDE.md、插件、技能、钩子、MCP 服务器）以进行故障排查。新增 /cd 命令，允许在不中断提示缓存的情况下切换会话工作目录。修复了多项问题，包括上下箭头在长输入行中的导航行为、企业 MCP 策略在重连时的执行问题、macOS 用户每轮对话的 UI 卡顿、Windows 上 claude -p 的延迟、远程控制重连卡死、Git 凭据弹窗、以及后台代理忽略项目级环境变量等。还优化了 CPU 使用率，并恢复了 Vertex/Foundry 的默认 5 分钟空闲超时。

Claude Code 一周年：Boris & Cat 回顾演进与方法论

X·KOLX：shao__meng (@shao__meng)原文 ↗

Claude Code 负责人 Boris Cherny 与产品负责人 Cat Wu 在一周年访谈中分享了产品演进的核心方法论。他们强调将错误写入持久化规则而非口头纠正，使 Agent 能长期自主运行。Verification 被重新定义为 Agent 亲自运行验证结果，而非传统单元测试。团队已全面转向 Auto Mode，认为模型从 4.6 起已能自主规划，且独立分类模型做安全拦截比人工审批更有效。组织层面，Anthropic 内部已将 AI 置于流程中心，角色融合（产品、设计、DevRel 都写代码）成为常态，未来工程师的主战场将从 IDE 转向 Agent 编排界面。

Browser Use 0.13.0 发布：用 Rust 重写，为 SOTA 模型而生

X·KOLX：Browser Use (@browser_use)原文 ↗

Browser Use 发布了 0.13.0 beta 版本，该版本用 Rust 从头重写了架构。旧版是为 GPT-4 设计的，而新版针对当前最先进的模型进行了优化。新架构包括自定义 LLM 和浏览器 harness、直接 CDP 控制、完整的浏览器动作空间以及自我故障恢复能力。核心变化是让模型拥有完整的浏览器控制权，而不是预定义的动作空间，从而大幅提升任务完成可靠性。

行业动态

Industry

5 篇

工信部与国资委启动2026年人形机器人实景训练计划

X·KOLX：pandaily (@contact@pandaily.com (Pandaily))原文 ↗

中国工业和信息化部（MIIT）与国务院国有资产监督管理委员会（SASAC）联合发布2026年全国行动计划，旨在将人形机器人部署到真实的工业、服务和专业场景中。该计划目标是实现千台级部署，并覆盖超过100个高价值应用场景。此举标志着中国在人形机器人产业化应用方面迈出关键一步，从实验室走向实际生产环境。

Cloudflare 零号客户架构：防御前沿网络模型攻击

X·KOLX：Cloudflare Blog (@Dan Jones)原文 ↗

Cloudflare 在 Project Glasswing 中提出，漏洞周围的架构比补丁速度更重要。本文详细介绍了该架构的设计、防御的威胁类型，以及 Cloudflare 如何作为自身客户（客户零）运行这套系统。核心思路是通过多层防御和智能路由，在模型攻击到达目标前进行拦截。这套架构已在实际环境中验证，为其他组织提供了可参考的防御范式。

Gary Marcus 反驳 Sergey Brin：Transformer 本身不足以实现 AGI

X·KOLX：Gary Marcus (@GaryMarcus)原文 ↗

Gary Marcus 在 X 上反驳 Google 联合创始人 Sergey Brin 的观点，Brin 认为 Transformer 架构本身足以实现 AGI。Marcus 指出，当前没有任何团队单独使用 Transformer，而是结合工具、约束和神经符号 AI 架构。他认为 Transformer 可能是 AGI 的必要条件，但绝非充分条件，这正是神经符号 AI 兴起的原因。

Cadence 与英特尔代工扩大 DTCO 合作，首期聚焦 Intel 14A

官方IT之家原文 ↗

Cadence 宣布与英特尔代工扩大设计技术协同优化（DTCO）合作，从 Intel 14A 工艺开始，优化工具、流程和方法论以实现性能、功耗和面积（PPA）的领先。双方将紧密合作，提供可量产的 PDK，并利用 Cadence 的代理式 AI 流程加速产品上市、降低设计风险。这一合作标志着两家公司关系升级为更深层次的战略伙伴，旨在推动 HPC 和移动端低功耗设计的突破。Cadence CEO 表示，这将助力客户实现性能与能效的新突破，加速下一代产品落地。

马斯克详解 SpaceX AI 卫星计划：技术成熟，明年规模化量产

官方IT之家原文 ↗

SpaceX CEO 马斯克表示，建造轨道 AI 数据中心并非难事，现有星链卫星技术已足够支撑。公司计划部署约 100 万颗 AI 卫星，每颗配备 70 米翼展光伏面板，支持 120 千瓦计算载荷，相当于一台英伟达 GB300 服务器机架。这些卫星将利用太阳能供电和太空散热，缓解地面 AI 数据中心的电力瓶颈。SpaceX 位于得克萨斯州的工厂预计明年年底前实现规模化量产，星舰的可重复使用设计将助力大规模部署。该计划是 SpaceX 在 IPO 前夕的核心增长战略，旨在成为主流 AI 基础设施服务商。

论文研究

Research

5 篇

Scaffold 选择影响 GAIA 准确率高达 28 个百分点：模型能力评估需谨慎

X·KOLX：arXiv: Anthropic (@Jason Starace)原文 ↗

一项预注册的对照研究系统比较了三种不同 scaffold（ReAct、多智能体 Planner-Actor-Rater、Planner-then-Executor）在五个模型（Claude Opus 4.7、Sonnet 4.6、Haiku 4.5、Gemini 3.1 Pro Preview、GPT-5.5）上的 GAIA 验证集表现。研究发现，仅 scaffold 选择就使同一模型的准确率波动高达 28 个百分点，证实了 scaffold 变化至少产生 10 个百分点的差距。更令人意外的是，更强大的模型并未对 scaffold 更不敏感——在更难的 Level 2 任务中，最强模型反而从结构化 scaffold 中获益最多。多智能体设计在 Anthropic 模型家族中优于 ReAct，但跨模型提供商时优势消失。结构化 scaffold 调用工具次数更少，但在困难任务中从错误中恢复的能力更强。这些结果表明，单 scaffold 的能力评估数字是 scaffold 条件性的，且随着模型改进，评估差距未必会缩小。

多智能体LLM级联中的幻觉传播分析

X·KOLX：arXiv: DeepSeek (@Saeid Jamshidi, Arghavan Moradi Dakhel, Kawser Wazed Nafi, Foutse Khomh)原文 ↗

该研究分析了多智能体LLM系统中幻觉的动态传播过程，通过500次级联实验追踪事实不一致性。结果显示，3级级联将归一化幻觉分数从0.422降至0.272，但事实准确性从0.789降至0.769，揭示了幻觉抑制与事实保留之间的权衡。不同模型表现各异：LLaMA-3-70B-Instruct幻觉最低，GPT-5.3生成更快但幻觉率更高。领域分析表明，科学领域幻觉较低，抽象领域较高。

DACSI攻击：低成本间接提示注入突破RAG安全边界

X·KOLX：arXiv: DeepSeek (@Jianguo Zhu)原文 ↗

研究者发现了一种针对检索增强生成（RAG）系统的新型间接提示注入攻击模式，称为DACSI（文档作者控制信号冒充）。攻击者通过编写看似元数据、来源或策略信号的文档文本，让模型误将其视为可信的控制指令，从而绕过安全边界。该攻击无需显式命令，利用RAG将用户查询、检索文档和系统标签混合到同一自然语言提示中的设计缺陷。在DeepSeek V4 Pro、Qwen3.5-397B等6种模型上的实验表明，该攻击在多数模型上有效，尤其在高易感性设置中。研究建议通过源/通道分离来缓解此类攻击。

FlashMemory-DeepSeek-V4：LSA稀疏注意力实现超长上下文高效推理

X·KOLX：arXiv: DeepSeek (@Yan Wang, Qifan Zhang, Jiachen Yu, Tian Liang, Dongyang Ma, Xiang Hu, Zibo Lin, Chunyang Li, Zhichao Wang, Jia Li, Yujiu Yang, Haitao Mi, Dong Yu)原文 ↗

FlashMemory-DeepSeek-V4 提出了一种名为 Lookahead Sparse Attention (LSA) 的新型推理范式，通过神经记忆索引器预测未来上下文需求，仅保留关键 KV 块在 GPU 内存中。该架构采用解耦训练策略，将索引器作为独立双编码器训练，无需加载主模型。在 LongBench-v2、LongMemEval 等长上下文评测中，LSA 将物理 KV 缓存压缩至全上下文基线的 13.5%，同时下游准确率平均提升 0.6%。在 50 万 token 极端长度下，物理 KV 缓存开销降低超过 90%，且不损害模型核心推理能力。

Bayesian-Agent：后验引导的 LLM Agent 技能进化框架

X·KOLX：arXiv: DeepSeek (@Xiaojun Wu, Cehao Yang, Honghao Liu, Xueyuan Lin, Wenjie Zhang, Zhichao Shi, Xuhui Jiang, Chengjin Xu, Jia Li, Jian Guo)原文 ↗

Bayesian-Agent 是一个跨框架的 LLM Agent 技能优化框架，它将可复用的技能和 SOP 视为关于冻结模型在特定提示、上下文和环境下能否成功的假设。该框架记录验证过的轨迹证据，维护每个技能的特征条件分类后验，并根据后验状态执行修补、拆分、压缩、退役和探索等操作。在 deepseek-v4-flash 上，增量修复将 SOP-Bench 从 80% 提升至 95%，Lifelong AgentBench 从 90% 提升至 100%，RealFin-Bench 从 45% 提升至 65%。该框架还支持 GenericAgent、mini-swe-agent 和 Claude Code 等后端，表明 Agent 技能进化应视为后验引导的优化，而非未校准的提示积累。代码已开源。

技巧与观点

Tips & Takes

3 篇

NVIDIA cuTile Python 教程：在 Colab 中构建分块 GPU 内核

X·KOLX：marktechpost (@Sana Hassan)原文 ↗

本教程介绍了 NVIDIA cuTile Python，一个基于分块的 GPU 编程接口，允许在 Python 中编写类 CUDA 的内核。教程在 Google Colab 环境中逐步实现向量加法、矩阵加法和矩阵乘法的分块内核，并包含 PyTorch 回退以确保可执行性。每个阶段都通过 PyTorch 验证正确性并基准测试中位运行时间。该教程适合希望学习 GPU 编程但不想深入 CUDA C++ 的 Python 开发者。

Opus 自主运行数小时/天的 5 个技巧

X·KOLX：elvis (@omarsar0)原文 ↗

Boris Cherny 分享了让 Claude Opus 自主运行数小时甚至数天的 5 个实用技巧。核心要点包括：使用自动模式避免频繁请求批准、利用动态工作流让 Claude 协调数百/数千个智能体、通过 /goal 或 /loop 命令持续推动任务完成、在云端运行 Claude Code 以便随时关闭笔记本、以及确保 Claude 能端到端自我验证工作成果。这些技巧对于需要长时间自主运行 AI 智能体的开发者非常实用。

MemoPilot：用强化学习优化LLM智能体记忆更新，提升测试时学习能力

X·KOLX：arXiv: DeepSeek (@Yishuo Cai, Xingyu Guo, Xuancheng Huang, Jinhua Du, Can Huang, Wenxuan Huang, Wenhan Ma, Yuyang Hu, Aohan Zeng, Jie Tang, Xu Sun)原文 ↗

论文提出MemoPilot，一种插件式记忆副驾驶，通过强化学习显式训练记忆更新过程，使冻结的LLM在连续交互中提升性能。该方法将记忆更新建模为多轮决策问题，采用多轮GRPO端到端优化，引入轮次奖励信号和上下文无关的轮级优势估计，实现更精细的信用分配和稳定训练。在多人石头剪刀布和有限注德州扑克两个测试环境中，MemoPilot的Elo评分分别达到1590和1762，超越所有基线记忆方法和包括DeepSeek-V3.2在内的闭源模型。这项工作解决了现有方法依赖手工设计提示规则、难以对齐记忆更新与长期目标的痛点。

227

今日事件

一手报道

新模型

信源