AITOP 日报｜2026年5月30日｜AI 代理工具与推理优化大爆发

模型发布/更新

Model Releases

5 篇

StepFun 发布 Step 3.7 Flash：198B MoE 视觉语言模型，专为编程智能体和搜索工作流设计

X·KOLX：marktechpost (@Asif Razzaq)原文 ↗

StepFun 发布了 Step 3.7 Flash，一个 198B 参数的 MoE（混合专家）视觉语言模型，原生支持视觉理解、256k 上下文窗口和 Advisor Mode（顾问模式）。该模型针对编程智能体和搜索工作流进行了优化，能够在复杂任务中提供高效推理和代码生成能力。Step 3.7 Flash 的发布标志着多模态大模型在专业领域应用的重要进展，尤其适合需要长上下文理解和视觉-语言联合推理的场景。

Kog AI 实现 3000 tokens/s 推理速度，10-30 倍提升

X·KOLX：rohanpaul_ai (@rohanpaul_ai)原文 ↗

Kog AI 在 8× AMD MI300X GPU 上实现了 3000 tokens/s 的推理速度，在 8× NVIDIA H200 上达到 2100 tokens/s（FP16，无投机解码）。这一速度比常规低批次解码快 10-30 倍。其核心创新是将 LLM 解码视为内存流问题而非数学问题，通过 monokernel 技术将整个解码过程作为单个持久 GPU 程序运行，消除了内核启动、CPU 调度和中间内存往返的开销。他们还优化了同步机制和内存访问，并设计了 Laneformer 模型使用延迟张量并行技术。目前技术预览基于 2B 模型，但声称可扩展到大型 MoE 模型。

智元自研世界模型 GE 2.0 登顶 WorldArena，2B 参数力压英伟达

官方IT之家原文 ↗

智元机器人自研的世界模型 Genie Envisioner-Sim 2.0（GE 2.0）在具身领域热门榜单 WorldArena Track1 中登顶，该赛道评测世界模型的感知与动作响应能力。GE 2.0 仅用 20 亿参数，就超越了英伟达、微软等团队的超大参数模型，验证了轻量化模型在人形机器人应用中的适配性。该模型首次全面覆盖长时序生成、多视角生成、本体状态生成、近实时推理及奖励判别等核心环节，在长时序推理中能稳定生成 40-50 秒高质量视频，且与真实世界保持强相关性。GE 2.0 还具备奖励模型机制，可自动筛选高质量数据回流给策略模型，助力多项任务性能提升。

英伟达推出 LocateAnything，高速高精度对象检测模型

官方IT之家原文 ↗

英伟达联合香港理工大学、南京大学发布 LocateAnything 模型，专为机器人和 AI Agent 设计，实现高速、高精度对象检测。该模型通过并行框解码在单步内预测边界框，提供 Fast、Slow 和 Hybrid 三种模式，兼顾速度和精度。在单张 H100 GPU 上，Hybrid 模式每秒处理 12.7 个框，远超 Qwen3-VL 等模型。训练数据涵盖 12M 图像和 138M 查询，覆盖多种定位场景。该模型在 LVIS 高精度任务和 ScreenSpot-Pro 等基准上表现优异。

NVIDIA Nemotron 3 Super 经后训练在复杂法律任务上媲美闭源前沿模型

X·KOLX：NVIDIA AI (@NVIDIAAI)原文 ↗

NVIDIA AI 宣布，Harvey 与 Trajectory Labs 合作，基于 NVIDIA Nemotron 3 Super 模型进行后训练，专注于复杂法律任务。他们在 Harvey 的 Legal Agent Benchmark（LAB）上测试了 1200+ 端到端法律任务，覆盖 24 个业务领域。初始结果显示，后训练的 Nemotron 3 Super 在性能上可媲美闭源前沿模型。该项目强调开放权重、可审计性和数据主权，支持持续学习（continual learning），使法律智能体能够从反馈中不断改进。这标志着开放模型在专业领域应用的重要突破。

产品发布/更新

Product

5 篇

Genesis AI 发布 Genesis World 1.0 物理平台，加速机器人基础模型评估

X·KOLX：marktechpost (@Michal Sutter)原文 ↗

Genesis AI 于 2026 年 5 月 27 日发布了 Genesis World 1.0，这是一个包含物理、渲染、编译和工具四个组件的仿真平台。该平台在仿真与真实机器人部署之间实现了 0.8996 的皮尔逊相关系数，并将策略评估时间从超过 200 小时缩短至不到 0.5 小时。这一突破使得机器人基础模型的规模化评估成为可能，显著降低了研发成本和时间。

Hermes Agent 为 MCP 加入工具搜索，Opus 4 准确率提升 49%-74%

X·KOLX：marktechpost (@Asif Razzaq)原文 ↗

Nous Research 的 Hermes Agent 新增 Tool Search 功能，用于解决 MCP（模型上下文协议）中的上下文膨胀问题。该功能采用 BM25 渐进式模式披露机制，能有效筛选相关工具。Anthropic 的评估显示，在 Opus 4 模型上，该方案将准确率提升了 49% 到 74%。这一改进对依赖 MCP 的 AI 代理系统意义重大，能显著减少无效信息干扰，提升任务执行效率。

Claude Code v2.1.157：自动加载插件、智能体增强与多项修复

X·KOLX：Claude Code: GitHub Releases (@ashwin-ant)原文 ↗

Anthropic 发布了 Claude Code v2.1.157，主要新增了自动加载 .claude/skills 目录下的插件功能，无需 marketplace。新增了 `claude plugin init <name>` 命令用于快速创建插件骨架，并支持 `/plugin` 参数的自动补全。智能体方面，`settings.json` 中的 agent 字段现在对分发会话生效，并可通过 `--agent <name>` 覆盖。此外，修复了多个关键问题，包括粘贴损坏图片导致崩溃、沙箱网络权限弹窗在自动模式下的误触发、以及终端冻结等问题。性能优化方面，长对话和恢复会话的消息渲染效率得到提升。

小米 MiMo-V2.5 推理系统全链路优化公开，最高降价 99%

官方IT之家原文 ↗

小米 MiMo-V2.5 系列 API 完成永久降价，最高降幅达 99%，并首次公开推理系统全链路优化方案。该方案围绕 Hybrid SWA + MoE + 多模态架构，重构了 KVCache 管理、分级缓存、前缀缓存及调度策略，将 KVCache 存储压缩至同级方案的约 1/7，显著降低长序列场景下的推理成本。这是业内首篇全面覆盖该组合架构的大规模工程落地方案，模型能力未缩减，但推理效率大幅提升。核心优化包括双池分治的 KVCache 系统、前缀缓存树重构、GCache 三级缓存以及 KVCache 亲和调度，使缓存命中率达 93% 以上，TTFT P90 降低 30%。

Together AI 上线最快语音转文字模型 NVIDIA Parakeet-TDT 0.6B

X·KOLX：Together AI (@togethercompute)原文 ↗

Together AI 推出了目前最快的两个语音转文字（STT）模型，其中 NVIDIA Parakeet-TDT 0.6B v3 能在 10 秒内转录 20 小时的语音。该模型基于 TensorRT 优化、条件 CUDA 图、事件驱动 I/O 和共享内存等技术实现极致性能。这一进展大幅降低了大规模语音转录的延迟和成本，对需要实时或批量处理语音的团队意义重大。Together AI 通过系统级优化展示了 STT 模型在推理速度上的新标杆。

行业动态

Industry

5 篇

Amazon 推出 RNG 网络：硬件需求降 69%，吞吐量提升 33%

X·KOLX：rohanpaul_ai (@rohanpaul_ai)原文 ↗

Amazon 发布了新型数据中心网络架构“Resilient Network Graphs”（RNG），用扁平随机图替代传统的胖树结构，将硬件需求降低 69%，吞吐量提升 33%。该设计自去年起已在 AWS 数据中心悄然部署，现已成为大多数 AWS 工作负载的默认网络。RNG 通过扁平化随机图连接路由器，提供多条独立路径，避免胖树网络的流量瓶颈问题。其路由系统 Spraypoint 将流量分散到多条路径，ShuffleBox 布线设备使随机连接变得可实施。实测显示，RNG 在性能上与胖树网络持平，但成本降低 9% 至 45%，尤其对 AI 集群的大规模同步训练流量有显著改善。

字节跳动自研AI数据中心CPU，减少对英伟达依赖

X·KOLX：rohanpaul_ai (@rohanpaul_ai)原文 ↗

据路透社报道，字节跳动正在开发自己的AI数据中心CPU，以应对TikTok规模下AI智能体运行对稀缺服务器处理器的需求。受Groq的“语言处理单元”启发，字节跳动同时测试Arm和RISC-V架构，在成熟商业设计和更可控的开源指令集之间做比较。市场CPU价格每季度上涨10%-35%且供应延迟，自研芯片成为成本和供应链策略。此举旨在减少对受限外国AI硬件的依赖，并降低每次查询的推理成本。更深层的变化是，AI智能体正将CPU变成战略芯片，因为智能体推理对CPU压力更大，一个用户请求会触发多个小步骤。字节跳动似乎没有内部芯片设计团队，依赖外部合作伙伴进行制造。

Salesforce 工程从 Copilot 走向 Agentic：PR 增 79%，事故降 5%

X·KOLX：shao__meng (@shao__meng)原文 ↗

Salesforce 分享了工程团队从「工程师 + 更强 Copilot」进化到「Agentic 工程」的实践路径。团队将 SDLC 的执行层逐步交给 Agent，人负责目标、规则、验收与复利。关键杠杆包括工具收敛（全组织用 Claude Code）、规则即代码（Markdown 规则 + PR 反馈闭环）、自治并行（build/fix/validate 闭环）。案例中一个原计划 231 人天的迁移任务 13 天完成，PR 增加 79%，有效产出提升 151%，事故减少 5%。工程师的核心能力从写代码转向拆解任务、判断委派、沉淀规则库。

开源模型落后闭源4个月，可持续吗？

X·KOLX：Gary Marcus (@GaryMarcus)原文 ↗

Epoch AI 最新研究显示，自2025年初以来，开源权重模型在能力上持续落后于闭源模型约4个月。这一差距引发了关于开源模型长期竞争力的讨论。专家 Gary Marcus 质疑，仅凭4个月的领先优势能否支撑一个价值数万亿美元的商业模式。该发现对AI行业格局、开源社区发展以及企业技术选型具有重要参考价值。

Ramp Labs 用 1 万智能体验证：开源模型成本低 5 倍，仍能发现高危漏洞

X·KOLX：Fireworks AI (@FireworksAI_HQ)原文 ↗

Ramp Labs 在自家后端部署了 1 万个 AI 智能体进行安全测试，发现开源模型（Kimi K2.6 和 DeepSeek V4 Pro）在 Fireworks 上运行，能以比 GPT 5.5 低约 5 倍的 token 成本，成功发现 7 个高危漏洞。Ramp 表示如果重做，会更依赖开源模型。这为开源权重模型在安全领域的价值提供了有力证据，表明在 GPU 资源稀缺的背景下，成本和效果需要平衡。

论文研究

Research

5 篇

NVIDIA 推出 X-Token：跨分词器知识蒸馏，在 Llama-3.2-1B 上超越 GOLD 3.82 平均分

X·KOLX：marktechpost (@Asif Razzaq)原文 ↗

NVIDIA 提出 X-Token，一种投影引导的跨分词器知识蒸馏（KD）方法，解决了 GOLD 方法中的两个结构性缺陷。在 Llama-3.2-1B 模型上，X-Token 将 GSM8k 准确率从 2.56% 提升至 15.54%，并在多个基准测试中平均超越 GOLD 3.82 分。该方法通过投影层对齐教师和学生模型的分词器，实现了更有效的知识迁移。X-Token 为小模型蒸馏大模型知识提供了新思路，尤其适用于资源受限场景。

斯坦福SAIL与ETH合作：RL丰富反馈远超标量奖励

X·KOLX：Stanford AI Lab (@StanfordAILab)原文 ↗

斯坦福SAIL与ETH合作研究表明，在极难任务中，使用丰富反馈的强化学习（RL）显著优于传统标量奖励方法。该研究通过对比实验，验证了多维度反馈信号能更有效地引导智能体学习复杂策略。这一发现对AI训练范式有重要启示，尤其适用于需要精细控制的机器人、游戏AI等领域。研究团队已公开部分代码和实验细节，供社区复现和进一步探索。

斯坦福SAIL发布VAGEN：强化学习训练VLM智能体构建内部世界模型

X·KOLX：Stanford AI Lab (@StanfordAILab)原文 ↗

斯坦福人工智能实验室（SAIL）发布博客文章，介绍其最新研究VAGEN。VAGEN是一个强化学习框架，旨在训练视觉语言模型（VLM）智能体通过明确的视觉状态推理来构建内部世界模型。该框架使智能体能够更好地理解环境动态，从而在复杂任务中做出更合理的决策。这一进展对于提升AI在机器人、自动驾驶等需要环境理解的领域中的表现具有重要意义。

斯坦福AI实验室发布Theory of Space基准：测试AI能否主动构建空间心智地图

X·KOLX：Stanford AI Lab (@StanfordAILab)原文 ↗

斯坦福AI实验室（SAIL）发布了新基准Theory of Space，旨在测试基础模型是否能够通过主动探索来构建、修正和利用空间信念（即心智地图），而不仅仅是被动处理给定的观察数据。该基准挑战AI在未知环境中主动导航、推理空间关系并更新认知模型的能力。这一研究对于推动AI在机器人、自动驾驶等需要空间理解领域的自主性具有重要意义。

AI聊天机器人越有用，模拟人类行为越差：20.8万人研究

X·KOLX：Decoder (@Jonathan Kemper)原文 ↗

一项涵盖20.8万名参与者和2600万次回答的大规模研究发现，将语言模型训练成有用聊天机器人的过程，反而削弱了它们模拟人类行为的能力。这种效应随着模型代际更新而加剧，即使是流行的“角色扮演”技巧（喂入人口统计特征）对个体预测也几乎没有帮助。研究指出，AI的“有用性”与“人性化”之间存在根本性矛盾，这对依赖AI进行社会模拟或用户行为预测的应用构成挑战。

技巧与观点

Tips & Takes

3 篇

161

今日事件

一手报道

新模型

信源

AITOP日报

模型发布/更新

StepFun 发布 Step 3.7 Flash：198B MoE 视觉语言模型，专为编程智能体和搜索工作流设计

Kog AI 实现 3000 tokens/s 推理速度，10-30 倍提升

智元自研世界模型 GE 2.0 登顶 WorldArena，2B 参数力压英伟达

英伟达推出 LocateAnything，高速高精度对象检测模型

NVIDIA Nemotron 3 Super 经后训练在复杂法律任务上媲美闭源前沿模型

产品发布/更新

Genesis AI 发布 Genesis World 1.0 物理平台，加速机器人基础模型评估

Hermes Agent 为 MCP 加入工具搜索，Opus 4 准确率提升 49%-74%

Claude Code v2.1.157：自动加载插件、智能体增强与多项修复

小米 MiMo-V2.5 推理系统全链路优化公开，最高降价 99%

Together AI 上线最快语音转文字模型 NVIDIA Parakeet-TDT 0.6B

行业动态

Amazon 推出 RNG 网络：硬件需求降 69%，吞吐量提升 33%

字节跳动自研AI数据中心CPU，减少对英伟达依赖

Salesforce 工程从 Copilot 走向 Agentic：PR 增 79%，事故降 5%

开源模型落后闭源4个月，可持续吗？

Ramp Labs 用 1 万智能体验证：开源模型成本低 5 倍，仍能发现高危漏洞

论文研究

NVIDIA 推出 X-Token：跨分词器知识蒸馏，在 Llama-3.2-1B 上超越 GOLD 3.82 平均分

斯坦福SAIL与ETH合作：RL丰富反馈远超标量奖励

斯坦福SAIL发布VAGEN：强化学习训练VLM智能体构建内部世界模型

斯坦福AI实验室发布Theory of Space基准：测试AI能否主动构建空间心智地图

AI聊天机器人越有用，模拟人类行为越差：20.8万人研究

技巧与观点

AgentTrove 教程：用 Python 流式处理 1.7M 智能体轨迹并构建 SFT 数据集

宝玉更新群聊总结 Skill：@bot 可结合上下文回答问题

使用编程助手是深度技能，如同2010年代的谷歌搜索