AITOP 日报｜2026年6月13日｜智能体时代加速到来，NVIDIA与Kimi双双创纪录

模型发布/更新

Model Releases

5 篇

Google 发布 Gemini-SQL2，Gemini 3.1 Pro 在 BIRD 上达 80.04%

X·KOLX：marktechpost (@Asif Razzaq)原文 ↗

Google Research 于 2026 年 6 月 12 日发布 Gemini-SQL2，基于 Gemini 3.1 Pro 模型。该模型在 BIRD 单模型排行榜上取得 80.04% 的执行准确率。文章解释了该分数含义、排行榜对比情况，以及 Google 未披露的细节。同时介绍了使用场景和基于 schema 的实现模式。

SGLang在GB300 NVL72上创纪录，每GPU超12K tok/s

X·KOLX：LMSYS Org (SGLang) (@lmsysorg)原文 ↗

SGLang在NVIDIA GB300 NVL72平台上，针对DeepSeek V4 Pro 1.6T模型（FP4精度，8K/1K上下文）实现了每GPU超过12K tok/s的推理速度。该性能由NVIDIA Dynamo（SGLang）和MTP技术协同实现。根据SemiAnalysis InferenceX基准测试，该性能在整个交互性曲线上保持稳定。

FrontierMath v2 上线：GPT-5.5 和 Google AI 领跑

X·KOLX：Epoch AI (@EpochAIResearch)原文 ↗

Epoch AI 发布 FrontierMath 基准测试 v2 版本，修复了 42% 的问题错误。新版本中，GPT-5.5 (xhigh) 在 Tier 1-3 上取得 85% 的准确率，Google 的 AI co-mathematician 在 Tier 4 上达到 76%。所有模型得分普遍提高，排名基本不变。

NVIDIA 发布首个智能体 AI 基准测试 AgentPerf，GB300 NVL72 每兆瓦运行 61.4K 编码智能体

X·KOLX：rohanpaul_ai (@rohanpaul_ai)原文 ↗

NVIDIA 发布了首个智能体 AI 基准测试 AgentPerf 的结果。该基准由 Artificial Analysis 推出，测试系统在保持响应性的同时能并发运行多少个智能体。GB300 NVL72 在最低服务层级达到每兆瓦 61.4K 并发智能体，而 H200 仅为 2.6K，性能提升约 23.6 倍。测试模拟了真实编码智能体路径，涵盖 12 种以上编程语言，请求长度从 5K 到 131K token 不等，平均约 27K token。性能提升得益于 72 块 GPU 通过 NVLink 组成机架级系统，以及优化 MoE 专家分配、通信与计算重叠等软件技术。

Together AI 为 Blackwell 优化推理引擎，TPS 提升 31%

X·KOLX：Together AI (@togethercompute)原文 ↗

Together AI 发布了基于 Blackwell 的推理引擎，在 AgentPerf 基准测试中，其 TPS 比次快的开源引擎高出 31%。该引擎通过为 Blackwell 的 Tensor Core 指令定制内核实现性能提升。Cursor 已将其实时编程助手部署在该推理栈上。Together AI 在推文中详细介绍了构建过程。

产品发布/更新

Product

4 篇

华为HarmonyOS 7开发者测试版发布，全面转向智能体架构

X·KOLX：pandaily (@contact@pandaily.com (Pandaily))原文 ↗

华为在HDC 2026上推出HarmonyOS 7开发者测试版，系统从应用平台转型为智能任务平台。新架构以Agent为核心，支持任务自动编排与跨设备协同。开发者可通过ArkTS语言和API构建智能体，实现语音、视觉等多模态交互。HarmonyOS 7计划于2026年第三季度正式商用。

Rocket Close用Strands Agents和Amazon Bedrock优化产权运营

X·KOLX：AWS Machine Learning Blog (@Anton Selin)原文 ↗

Rocket Close使用Strands Agents、Amazon Bedrock、Amazon Bedrock Knowledge Bases和MCP工具构建了Supercharger解决方案，用于优化产权运营。该方案通过LLM驱动的智能体自动化处理产权搜索和文档分析，减少了人工操作。Rocket Close在实施后实现了运营效率提升，具体数字未公开。技术栈选择基于Amazon Bedrock的托管服务和MCP工具集成，简化了开发流程。

Fireworks 为 Qwen 推出长时智能体循环支持，262k 上下文

X·KOLX：Fireworks AI (@FireworksAI_HQ)原文 ↗

Fireworks AI 为 Qwen 模型新增长时智能体循环功能，支持观察、推理、编码、执行和验证的重复流程。Qwen 官方演示运行了 11 小时，生成了超过 10,000 行代码并执行了 1,000 多次调用。Fireworks 提供 reasoning_history 参数以跨轮次保留推理上下文，支持按请求切换思考/非思考模式，以及原生图像和文本输入。默认启用 262k 上下文和提示缓存，缓存输入价格为每百万 token 0.10 美元。

Vercel 发布 HarnessAgent，统一抽象层实现 AI 模型与智能体可移植

X·KOLX：Guillermo Rauch (@rauchg)原文 ↗

Vercel 在 AI SDK 中推出 HarnessAgent，这是一个统一抽象层，用于编排和集成任何智能体的“大脑”到应用中。它支持 Claude Code、Codex 和 Pi 等智能体框架，并提供沙箱会话和 AI SDK 兼容流。开发者可通过 npm i ai@canary 获取。该工具旨在消除模型和智能体锁定，提升开发体验。

行业动态

Industry

5 篇

Claude Fable 5 因美国政府指令从 Arena 下架，此前排名第一

X·KOLX：lmarena.ai (@lmarena_ai)原文 ↗

Arena 宣布已移除 Claude Fable 5，原因是 Anthropic 的最新公告和美国政府指令要求暂停访问。Fable 5 在 Agent、Text 和 Code Arena 三项基准中均排名第一，是 Arena 测试过的最强模型，在 Agent Arena 上以最大领先幅度超过 Opus-4.8 和 GPT-5.5。该模型在确认任务成功率和好评/投诉比两项关键信号上表现突出，但可操控性较弱。Arena 表示将在可能时恢复访问并重启社区测试。

Anthropic 从租用云算力转向自建数据中心，规划超 1GW 容量

X·KOLX：rohanpaul_ai (@rohanpaul_ai)原文 ↗

据 The Information 报道，Anthropic 正从租用云算力转向自建数据中心，计划在美国部署超 1GW 容量，Google 可能为其租赁付款提供担保。此前 Anthropic 已通过云服务商承诺超 10GW 服务器租赁，包括与 Google 的 2000 亿美元协议。该公司还锁定了与 Akamai、AWS、CoreWeave 和 Fluidstack 的大额云交易，涵盖 Amazon Trainium 硬件和 500 亿美元 Fluidstack 合作。此外，Anthropic 已签署 SpaceX/xAI 的 Colossus 1 数据中心整租协议，月费 12.5 亿美元，并预留 Colossus II 空间。

Anthropic 两款模型 Fable 5 和 Mythos 5 因美国政府指令全球下线

X·KOLX：shao__meng (@shao__meng)原文 ↗

美国政府部门以国家安全与出口管制为由，向 Anthropic 下达指令，禁止任何外国籍人士使用 Fable 5 和 Mythos 5。Anthropic 于美东时间 6月12日 17:21 收到指令后，对全部客户下线这两款模型，其余 Claude 模型不受影响。Anthropic 表示这是误解，正努力恢复访问。

Meta 从“Tokenmaxxing”转向 Token 管理，内部 AI 成本达数十亿美元

X·KOLX：Decoder (@Matthias Bastian)原文 ↗

Meta 内部备忘录显示，其内部 AI 使用成本已达数十亿美元。从 2027 年起，Meta 将通过预算分配和名为“AI Gateway”的中央仪表板来管理 Token 消耗。CTO Andrew Bosworth 强调，Token 使用量本身并非衡量影响力的指标。此举旨在控制成本，将资源聚焦于高价值应用。

美国出口管制令暂停Anthropic Fable 5和Mythos 5模型访问

X·KOLX：Simon Willison (@simonw)原文 ↗

美国以国家安全为由发布出口管制指令，暂停所有外国国民（包括Anthropic外籍员工）对Fable 5和Mythos 5模型的访问。Anthropic被迫立即禁用这两个模型以确保合规，其他Claude模型不受影响。Anthropic认为这是误解，正努力恢复访问。

论文研究

Research

4 篇

Google DeepMind 论文：从 AGI 到 ASI 的四条技术路径

X·KOLX：rohanpaul_ai (@rohanpaul_ai)原文 ↗

Google DeepMind 发布论文《From AGI to ASI》，探讨从通用人工智能（AGI）到超级人工智能（ASI）的四种可能路径：持续扩展计算与模型规模、算法范式突破（超越 Transformer）、递归自我改进（AI 加速 AI 研发）、多智能体集体智能。论文指出，扩展路径可能受限于数据、计算和能源瓶颈；递归改进最不确定，因需真实世界测试和稀缺硬件；多智能体集体智能最被低估，通过专业化与协调可超越单一模型。ASI 可能不是单一事件，而是 AI 辅助创造更好 AI 的加速链。

Nvidia 发布 Cosmos 3：统一语言、图像、视频、音频和动作的物理 AI 世界模型

X·KOLX：rohanpaul_ai (@rohanpaul_ai)原文 ↗

Nvidia 推出 Cosmos 3，一个能够理解、模拟和行动于多种物理 AI 任务的统一模型。它将动作视为世界的一等语言，把语言、图像、视频、音频和动作整合到一个共享系统中。该模型通过动作标记设计，让机器人能连接所见与可能发生的事，并决定下一步行动。论文显示，Cosmos 3 可基于视频推断动作，或与未来场景一同生成动作，从而解决机器人抓取、滑动等物理交互问题。

《Memory》让模型在 session 间积累知识：Sonnet 4.6 停在第1步，Fable 5 达73%覆盖率

X·KOLX：AI Will (@FinanceYF5)原文 ↗

《Memory》方法让模型在多个 session 间积累知识，路径分为失败、调查、验证、提炼规则、查用规则五步。Sonnet 4.6 仅完成第1步（记录失败但不查询）；Opus 4.7 可到第3步，但校验覆盖率仅7–33%；Fable 5 能走完全程，验证覆盖率最高达73%。该方法旨在提升模型跨会话知识复用能力。

我国原创RNA编辑技术LEAPER首次用于罕见病DMD临床获积极结果

官方IT之家原文 ↗

北京大学魏文胜团队与昌平实验室在《细胞》发表两项研究，其RNA编辑技术LEAPER首次进入DMD（杜氏肌营养不良症）临床研究。3名患儿接受候选药物LE051治疗后，外显子跳跃水平剂量依赖性提高，肌营养不良蛋白恢复，运动功能持续改善。该技术通过工程化RNA调动内源编辑酶，无需外源蛋白，单次给药在猴模型中维持超一年疗效。LEAPER平台可覆盖约80%的DMD患者，目前未观察到严重不良事件。

技巧与观点

Tips & Takes

3 篇

148

今日事件

一手报道

新模型

信源

AITOP日报

模型发布/更新

Google 发布 Gemini-SQL2，Gemini 3.1 Pro 在 BIRD 上达 80.04%

SGLang在GB300 NVL72上创纪录，每GPU超12K tok/s

FrontierMath v2 上线：GPT-5.5 和 Google AI 领跑

NVIDIA 发布首个智能体 AI 基准测试 AgentPerf，GB300 NVL72 每兆瓦运行 61.4K 编码智能体

Together AI 为 Blackwell 优化推理引擎，TPS 提升 31%

产品发布/更新

华为HarmonyOS 7开发者测试版发布，全面转向智能体架构

Rocket Close用Strands Agents和Amazon Bedrock优化产权运营

Fireworks 为 Qwen 推出长时智能体循环支持，262k 上下文

Vercel 发布 HarnessAgent，统一抽象层实现 AI 模型与智能体可移植

行业动态

Claude Fable 5 因美国政府指令从 Arena 下架，此前排名第一

Anthropic 从租用云算力转向自建数据中心，规划超 1GW 容量

Anthropic 两款模型 Fable 5 和 Mythos 5 因美国政府指令全球下线

Meta 从“Tokenmaxxing”转向 Token 管理，内部 AI 成本达数十亿美元

美国出口管制令暂停Anthropic Fable 5和Mythos 5模型访问

论文研究

Google DeepMind 论文：从 AGI 到 ASI 的四条技术路径

Nvidia 发布 Cosmos 3：统一语言、图像、视频、音频和动作的物理 AI 世界模型

《Memory》让模型在 session 间积累知识：Sonnet 4.6 停在第1步，Fable 5 达73%覆盖率

我国原创RNA编辑技术LEAPER首次用于罕见病DMD临床获积极结果

技巧与观点

用city2graph、OSMnx和PyTorch Geometric实现空间图神经网络推断城市功能

部署语音智能体时延迟超500ms用户挂断，Together AI详解优化

OpenAI WebRTC Audio Session 更新，支持文档上下文和 GPT-Realtime-2 模型