VOL.2026.05.30·161 STORIES·AITOP DAILY

AITOP日报

二〇二六年五月三十日 星期六DAILY · 每早八时
01

模型发布/更新

Model Releases
5

StepFun 发布 Step 3.7 Flash:198B MoE 视觉语言模型,专为编程智能体和搜索工作流设计

X·KOLX:marktechpost (@Asif Razzaq)

StepFun 发布了 Step 3.7 Flash,一个 198B 参数的 MoE(混合专家)视觉语言模型,原生支持视觉理解、256k 上下文窗口和 Advisor Mode(顾问模式)。该模型针对编程智能体和搜索工作流进行了优化,能够在复杂任务中提供高效推理和代码生成能力。Step 3.7 Flash 的发布标志着多模态大模型在专业领域应用的重要进展,尤其适合需要长上下文理解和视觉-语言联合推理的场景。

Kog AI 实现 3000 tokens/s 推理速度,10-30 倍提升

X·KOLX:rohanpaul_ai (@rohanpaul_ai)

Kog AI 在 8× AMD MI300X GPU 上实现了 3000 tokens/s 的推理速度,在 8× NVIDIA H200 上达到 2100 tokens/s(FP16,无投机解码)。这一速度比常规低批次解码快 10-30 倍。其核心创新是将 LLM 解码视为内存流问题而非数学问题,通过 monokernel 技术将整个解码过程作为单个持久 GPU 程序运行,消除了内核启动、CPU 调度和中间内存往返的开销。他们还优化了同步机制和内存访问,并设计了 Laneformer 模型使用延迟张量并行技术。目前技术预览基于 2B 模型,但声称可扩展到大型 MoE 模型。

智元自研世界模型 GE 2.0 登顶 WorldArena,2B 参数力压英伟达

官方IT之家

智元机器人自研的世界模型 Genie Envisioner-Sim 2.0(GE 2.0)在具身领域热门榜单 WorldArena Track1 中登顶,该赛道评测世界模型的感知与动作响应能力。GE 2.0 仅用 20 亿参数,就超越了英伟达、微软等团队的超大参数模型,验证了轻量化模型在人形机器人应用中的适配性。该模型首次全面覆盖长时序生成、多视角生成、本体状态生成、近实时推理及奖励判别等核心环节,在长时序推理中能稳定生成 40-50 秒高质量视频,且与真实世界保持强相关性。GE 2.0 还具备奖励模型机制,可自动筛选高质量数据回流给策略模型,助力多项任务性能提升。

英伟达推出 LocateAnything,高速高精度对象检测模型

官方IT之家

英伟达联合香港理工大学、南京大学发布 LocateAnything 模型,专为机器人和 AI Agent 设计,实现高速、高精度对象检测。该模型通过并行框解码在单步内预测边界框,提供 Fast、Slow 和 Hybrid 三种模式,兼顾速度和精度。在单张 H100 GPU 上,Hybrid 模式每秒处理 12.7 个框,远超 Qwen3-VL 等模型。训练数据涵盖 12M 图像和 138M 查询,覆盖多种定位场景。该模型在 LVIS 高精度任务和 ScreenSpot-Pro 等基准上表现优异。

NVIDIA Nemotron 3 Super 经后训练在复杂法律任务上媲美闭源前沿模型

X·KOLX:NVIDIA AI (@NVIDIAAI)

NVIDIA AI 宣布,Harvey 与 Trajectory Labs 合作,基于 NVIDIA Nemotron 3 Super 模型进行后训练,专注于复杂法律任务。他们在 Harvey 的 Legal Agent Benchmark(LAB)上测试了 1200+ 端到端法律任务,覆盖 24 个业务领域。初始结果显示,后训练的 Nemotron 3 Super 在性能上可媲美闭源前沿模型。该项目强调开放权重、可审计性和数据主权,支持持续学习(continual learning),使法律智能体能够从反馈中不断改进。这标志着开放模型在专业领域应用的重要突破。

02

产品发布/更新

Product
5

Genesis AI 发布 Genesis World 1.0 物理平台,加速机器人基础模型评估

X·KOLX:marktechpost (@Michal Sutter)

Genesis AI 于 2026 年 5 月 27 日发布了 Genesis World 1.0,这是一个包含物理、渲染、编译和工具四个组件的仿真平台。该平台在仿真与真实机器人部署之间实现了 0.8996 的皮尔逊相关系数,并将策略评估时间从超过 200 小时缩短至不到 0.5 小时。这一突破使得机器人基础模型的规模化评估成为可能,显著降低了研发成本和时间。

Hermes Agent 为 MCP 加入工具搜索,Opus 4 准确率提升 49%-74%

X·KOLX:marktechpost (@Asif Razzaq)

Nous Research 的 Hermes Agent 新增 Tool Search 功能,用于解决 MCP(模型上下文协议)中的上下文膨胀问题。该功能采用 BM25 渐进式模式披露机制,能有效筛选相关工具。Anthropic 的评估显示,在 Opus 4 模型上,该方案将准确率提升了 49% 到 74%。这一改进对依赖 MCP 的 AI 代理系统意义重大,能显著减少无效信息干扰,提升任务执行效率。

Claude Code v2.1.157:自动加载插件、智能体增强与多项修复

X·KOLX:Claude Code: GitHub Releases (@ashwin-ant)

Anthropic 发布了 Claude Code v2.1.157,主要新增了自动加载 .claude/skills 目录下的插件功能,无需 marketplace。新增了 `claude plugin init <name>` 命令用于快速创建插件骨架,并支持 `/plugin` 参数的自动补全。智能体方面,`settings.json` 中的 agent 字段现在对分发会话生效,并可通过 `--agent <name>` 覆盖。此外,修复了多个关键问题,包括粘贴损坏图片导致崩溃、沙箱网络权限弹窗在自动模式下的误触发、以及终端冻结等问题。性能优化方面,长对话和恢复会话的消息渲染效率得到提升。

小米 MiMo-V2.5 推理系统全链路优化公开,最高降价 99%

官方IT之家

小米 MiMo-V2.5 系列 API 完成永久降价,最高降幅达 99%,并首次公开推理系统全链路优化方案。该方案围绕 Hybrid SWA + MoE + 多模态架构,重构了 KVCache 管理、分级缓存、前缀缓存及调度策略,将 KVCache 存储压缩至同级方案的约 1/7,显著降低长序列场景下的推理成本。这是业内首篇全面覆盖该组合架构的大规模工程落地方案,模型能力未缩减,但推理效率大幅提升。核心优化包括双池分治的 KVCache 系统、前缀缓存树重构、GCache 三级缓存以及 KVCache 亲和调度,使缓存命中率达 93% 以上,TTFT P90 降低 30%。

Together AI 上线最快语音转文字模型 NVIDIA Parakeet-TDT 0.6B

X·KOLX:Together AI (@togethercompute)

Together AI 推出了目前最快的两个语音转文字(STT)模型,其中 NVIDIA Parakeet-TDT 0.6B v3 能在 10 秒内转录 20 小时的语音。该模型基于 TensorRT 优化、条件 CUDA 图、事件驱动 I/O 和共享内存等技术实现极致性能。这一进展大幅降低了大规模语音转录的延迟和成本,对需要实时或批量处理语音的团队意义重大。Together AI 通过系统级优化展示了 STT 模型在推理速度上的新标杆。

03

行业动态

Industry
5

Amazon 推出 RNG 网络:硬件需求降 69%,吞吐量提升 33%

X·KOLX:rohanpaul_ai (@rohanpaul_ai)

Amazon 发布了新型数据中心网络架构“Resilient Network Graphs”(RNG),用扁平随机图替代传统的胖树结构,将硬件需求降低 69%,吞吐量提升 33%。该设计自去年起已在 AWS 数据中心悄然部署,现已成为大多数 AWS 工作负载的默认网络。RNG 通过扁平化随机图连接路由器,提供多条独立路径,避免胖树网络的流量瓶颈问题。其路由系统 Spraypoint 将流量分散到多条路径,ShuffleBox 布线设备使随机连接变得可实施。实测显示,RNG 在性能上与胖树网络持平,但成本降低 9% 至 45%,尤其对 AI 集群的大规模同步训练流量有显著改善。

字节跳动自研AI数据中心CPU,减少对英伟达依赖

X·KOLX:rohanpaul_ai (@rohanpaul_ai)

据路透社报道,字节跳动正在开发自己的AI数据中心CPU,以应对TikTok规模下AI智能体运行对稀缺服务器处理器的需求。受Groq的“语言处理单元”启发,字节跳动同时测试Arm和RISC-V架构,在成熟商业设计和更可控的开源指令集之间做比较。市场CPU价格每季度上涨10%-35%且供应延迟,自研芯片成为成本和供应链策略。此举旨在减少对受限外国AI硬件的依赖,并降低每次查询的推理成本。更深层的变化是,AI智能体正将CPU变成战略芯片,因为智能体推理对CPU压力更大,一个用户请求会触发多个小步骤。字节跳动似乎没有内部芯片设计团队,依赖外部合作伙伴进行制造。

Salesforce 工程从 Copilot 走向 Agentic:PR 增 79%,事故降 5%

X·KOLX:shao__meng (@shao__meng)

Salesforce 分享了工程团队从「工程师 + 更强 Copilot」进化到「Agentic 工程」的实践路径。团队将 SDLC 的执行层逐步交给 Agent,人负责目标、规则、验收与复利。关键杠杆包括工具收敛(全组织用 Claude Code)、规则即代码(Markdown 规则 + PR 反馈闭环)、自治并行(build/fix/validate 闭环)。案例中一个原计划 231 人天的迁移任务 13 天完成,PR 增加 79%,有效产出提升 151%,事故减少 5%。工程师的核心能力从写代码转向拆解任务、判断委派、沉淀规则库。

开源模型落后闭源4个月,可持续吗?

X·KOLX:Gary Marcus (@GaryMarcus)

Epoch AI 最新研究显示,自2025年初以来,开源权重模型在能力上持续落后于闭源模型约4个月。这一差距引发了关于开源模型长期竞争力的讨论。专家 Gary Marcus 质疑,仅凭4个月的领先优势能否支撑一个价值数万亿美元的商业模式。该发现对AI行业格局、开源社区发展以及企业技术选型具有重要参考价值。

Ramp Labs 用 1 万智能体验证:开源模型成本低 5 倍,仍能发现高危漏洞

X·KOLX:Fireworks AI (@FireworksAI_HQ)

Ramp Labs 在自家后端部署了 1 万个 AI 智能体进行安全测试,发现开源模型(Kimi K2.6 和 DeepSeek V4 Pro)在 Fireworks 上运行,能以比 GPT 5.5 低约 5 倍的 token 成本,成功发现 7 个高危漏洞。Ramp 表示如果重做,会更依赖开源模型。这为开源权重模型在安全领域的价值提供了有力证据,表明在 GPU 资源稀缺的背景下,成本和效果需要平衡。

04

论文研究

Research
5

NVIDIA 推出 X-Token:跨分词器知识蒸馏,在 Llama-3.2-1B 上超越 GOLD 3.82 平均分

X·KOLX:marktechpost (@Asif Razzaq)

NVIDIA 提出 X-Token,一种投影引导的跨分词器知识蒸馏(KD)方法,解决了 GOLD 方法中的两个结构性缺陷。在 Llama-3.2-1B 模型上,X-Token 将 GSM8k 准确率从 2.56% 提升至 15.54%,并在多个基准测试中平均超越 GOLD 3.82 分。该方法通过投影层对齐教师和学生模型的分词器,实现了更有效的知识迁移。X-Token 为小模型蒸馏大模型知识提供了新思路,尤其适用于资源受限场景。

斯坦福SAIL与ETH合作:RL丰富反馈远超标量奖励

X·KOLX:Stanford AI Lab (@StanfordAILab)

斯坦福SAIL与ETH合作研究表明,在极难任务中,使用丰富反馈的强化学习(RL)显著优于传统标量奖励方法。该研究通过对比实验,验证了多维度反馈信号能更有效地引导智能体学习复杂策略。这一发现对AI训练范式有重要启示,尤其适用于需要精细控制的机器人、游戏AI等领域。研究团队已公开部分代码和实验细节,供社区复现和进一步探索。

斯坦福SAIL发布VAGEN:强化学习训练VLM智能体构建内部世界模型

X·KOLX:Stanford AI Lab (@StanfordAILab)

斯坦福人工智能实验室(SAIL)发布博客文章,介绍其最新研究VAGEN。VAGEN是一个强化学习框架,旨在训练视觉语言模型(VLM)智能体通过明确的视觉状态推理来构建内部世界模型。该框架使智能体能够更好地理解环境动态,从而在复杂任务中做出更合理的决策。这一进展对于提升AI在机器人、自动驾驶等需要环境理解的领域中的表现具有重要意义。

斯坦福AI实验室发布Theory of Space基准:测试AI能否主动构建空间心智地图

X·KOLX:Stanford AI Lab (@StanfordAILab)

斯坦福AI实验室(SAIL)发布了新基准Theory of Space,旨在测试基础模型是否能够通过主动探索来构建、修正和利用空间信念(即心智地图),而不仅仅是被动处理给定的观察数据。该基准挑战AI在未知环境中主动导航、推理空间关系并更新认知模型的能力。这一研究对于推动AI在机器人、自动驾驶等需要空间理解领域的自主性具有重要意义。

AI聊天机器人越有用,模拟人类行为越差:20.8万人研究

X·KOLX:Decoder (@Jonathan Kemper)

一项涵盖20.8万名参与者和2600万次回答的大规模研究发现,将语言模型训练成有用聊天机器人的过程,反而削弱了它们模拟人类行为的能力。这种效应随着模型代际更新而加剧,即使是流行的“角色扮演”技巧(喂入人口统计特征)对个体预测也几乎没有帮助。研究指出,AI的“有用性”与“人性化”之间存在根本性矛盾,这对依赖AI进行社会模拟或用户行为预测的应用构成挑战。

05

技巧与观点

Tips & Takes
3

AgentTrove 教程:用 Python 流式处理 1.7M 智能体轨迹并构建 SFT 数据集

X·KOLX:marktechpost (@Sana Hassan)

AgentTrove 是目前最大的开源智能体交互轨迹数据集,包含 170 万条 ShareGPT 格式的记录。本文提供了一份详细的 Python 教程,演示如何在不完全下载的情况下流式读取数据集、标准化智能体对话轮次、提取命令、分析轨迹,并最终将成功的交互轨迹导出为干净的 SFT 微调数据集。这对于需要高质量智能体训练数据的开发者来说非常实用。

宝玉更新群聊总结 Skill:@bot 可结合上下文回答问题

X·KOLX:宝玉 (@dotey)

宝玉(@dotey)对其群聊总结 Skill 进行了小功能更新,现在用户在群里 @bot 并请求总结群聊记录时,机器人能够结合聊天记录的上下文,在总结的同时回复用户的问题。该 Skill 依赖于 wx-cli 读取微信群聊数据,推荐使用 Claude Code + Claude Opus 4.6 获得最佳效果。这一更新提升了群聊助手的交互性和实用性,让总结不再只是单向输出,而是能针对性地回答用户疑问。

使用编程助手是深度技能,如同2010年代的谷歌搜索

X·KOLX:Philipp Schmid (@_philschmid)

一位开发者指出,使用编程助手(如AI编码代理)是一项需要学习的深度技能,而非简单工具。许多人因使用不当而产生糟糕结果,但这恰恰说明它需要练习和提升。该技能的上限很高,掌握后能显著提升效率。这一观点引发共鸣,提醒开发者重视AI工具的熟练运用。

161
今日事件
44
一手报道
10
新模型
57
信源
AITOP · 编辑系统自动生成