AITOP 日报｜2026年5月17日｜AI 智能体安全危机与架构革新

模型发布/更新

Model Releases

3 篇

开源模型爆发：Gemma 4、DeepSeek V4、Kimi K2.6 等密集发布

X·KOLX：Nathan Lambert: Interconnects (@Florian Brand)原文 ↗

过去一个月内，多个重磅开源模型密集发布，包括 Google 的 Gemma 4、DeepSeek V4、Kimi K2.6、MiMo 2.5 和 GLM-5.1 等。这些模型在性能、架构和开源策略上各有突破，标志着开源 AI 生态进入新一轮竞争。CAISI 的 V4 评估报告对这些模型进行了横向对比，揭示了不同模型在推理、多模态和效率上的优劣。对于关注开源模型选型和趋势的开发者与研究者，这是重要的参考节点。

Anthropic 新模型 Claude Mythos 现身 Google Cloud Console

X·KOLX：TestingCatalog (@testingcatalog)原文 ↗

Anthropic 的新模型 Claude Mythos 在 Google Cloud Console 中被发现，暗示该模型可能通过 GCP 提供给特定企业用户。目前尚不确定 Anthropic 是否会公开发布该模型，但可能作为模型提供商，让有权限的公司在其 GCP 环境中使用。这一发现引发了社区对 Anthropic 模型策略的关注，尤其是其与云平台的合作模式。

陶哲轩：LLM数学很简单，本科生就能懂，但行为不可预测

X·KOLX：berryxia (@berryxia)原文 ↗

菲尔兹奖得主、数学家陶哲轩在访谈中指出，当前大模型背后的数学原理其实非常简单，仅涉及线性代数、矩阵乘法和微积分，本科生就能完全掌握。然而，真正令人困惑的是模型行为不可预测：它们在某些任务上表现惊人，在另一些任务上却突然翻车，且无法提前预判。陶哲轩认为，核心原因在于现实世界的自然语言数据处于“部分有序、部分随机”的中间地带，而数学界对此区域的理论还很薄弱。这一“简单机制 vs 不可预测行为”的矛盾，是当前AI最核心的谜题。

产品发布/更新

Product

5 篇

OpenUI 开源：生成式 UI 新框架，比 JSON 快 3 倍

X·KOLX：AlphaSignal (@AlphaSignalAI)原文 ↗

OpenUI 是一个新开源的生成式 UI 框架，它用自定义的流式语言 OpenUI Lang 替代 JSON 来传输 UI 结构。相比传统 JSON 方案，OpenUI 减少了 67% 的 token 消耗，渲染速度快 3 倍，且不执行任意代码，安全性更高。开发者只需定义组件库，模型只能输出已注册的组件，并通过 Zod 模式保证类型安全。该框架支持 React Native 和 Vue，并允许在运行时接入工具和 MCP 服务器。项目已开源，可直接使用。

AG-UI 协议快速崛起，成为 MCP 后最受关注的智能体协议

X·KOLX：Ate-a-Pi (@svpino)原文 ↗

继 MCP 之后，AG-UI 成为增长最快的智能体协议。它是一种轻量级事件流协议，专为构建面向用户的 AI 智能体设计，支持实时更新、工具编排、共享可变状态、安全边界和 UI 同步。最新版本还增加了线程支持，进一步扩展了其应用场景。AG-UI 的快速崛起表明开发者对更轻量、更灵活的智能体交互协议有强烈需求。

OpenAI 将 Codex 变为个人计算集群控制平面

X·KOLX：kimmonismus (@kimmonismus)原文 ↗

OpenAI 正在将 Codex 转型为个人计算设备的控制平面，使其能够管理用户所有的计算资源。这意味着每台 Mac Mini、工作台式机、开发机，甚至未来的浏览器会话都将成为智能体端点。这一举措将极大简化个人计算资源的统一调度和自动化操作，让用户可以通过自然语言指令控制整个计算集群。OpenAI 正在构建一个更强大的智能体基础设施，可能彻底改变个人计算的使用方式。

MagicPath 原生集成 Codex，设计开发合体

X·KOLX：berryxia (@berryxia)原文 ↗

MagicPath AI 的 CEO 发布演示，展示其设计工具可直接作为原生画布运行在 Codex 中。用户可在 MagicPath 拖拽 UI，Codex 实时感知项目并自动生成代码、编辑组件。安装只需一行命令，配置后即可在 Codex 内完成设计到开发的全流程。这大幅缩短了从创意到可运行应用的距离，解决了设计-开发-迭代需切换多个工具的痛点。

GPT 5.5 发现全新漏洞，防御安全新突破

X·KOLX：Greg Brockman (@gdb)原文 ↗

安全研究员 Philo Groves 使用 GPT 5.5 发现了一个真正新颖的漏洞，并提交了一份最疯狂的漏洞报告。该报告在不到 10 分钟内通过了初步审查，且未被标记为重复。Groves 表示迫不及待想公开这一发现。这展示了 AI 在防御性安全领域的潜力，能够发现人类可能忽略的漏洞。

行业动态

Industry

5 篇

OpenClaw 团队一个月烧掉 130 万美元 API 费用，无预算约束测试 AI 编程极限

官方IT之家原文 ↗

OpenAI 员工、OpenClaw 项目创始人 Peter Steinberger 晒出 30 天内 OpenAI API 账单，高达 130 万美元（约 890.9 万元人民币），涵盖 760 万次请求和 6030 亿 token，全部由约 100 个 Codex 实例生成。这些智能体自主审核代码、筛查漏洞、编写修复代码，甚至参与会议并自动生成代码。Steinberger 表示这是无预算限制下测试 AI 辅助软件开发极限的实验，所有成果开源。账单中极速模式是主要成本来源，关闭后成本可降至约 30 万美元。此事引发对 AI 编程工具定价模式和实际算力成本的关注。

AI假图“仅退款”成风，国家反诈中心AI鉴定师实战上线

官方IT之家原文 ↗

电商平台出现利用AI伪造商品问题图片骗取“仅退款”的新套路，商家叫苦不迭。国家反诈中心App于3月上线AI内容鉴定功能，支持图像、视频、文本、音频的AI识别检测，覆盖常用格式。该功能通过小模型与大模型协同工作，在业务场景中实现高识别率与低误报率。央视实测显示，多张疑似AI生成的售后图均被判定为含AI生成痕迹。这一公益功能为中小商家提供了低成本初步鉴定路径，有望遏制AI伪造证据的欺诈行为。

Claude 团队发布 AI-Native 初创团队操作手册

X·KOLX：shao__meng (@shao__meng)原文 ↗

Claude 团队发布了一份面向创始人的操作手册，详细阐述了如何构建一个 AI-Native 的初创团队。手册涵盖了从团队组建、角色定义到工作流程设计的核心原则，强调将 AI 深度融入产品开发与运营决策。关键内容包括如何平衡 AI 专家与领域专家的协作、如何设计 AI 优先的迭代流程，以及如何避免常见陷阱。这份指南为希望从零打造 AI 驱动公司的创始人提供了实用框架。

Atomic Bot 用 Qwen 35B 实测对比 OpenClaw 和 Hermes Agent，引发大佬激辩

X·KOLX：shao__meng (@shao__meng)原文 ↗

Atomic Bot 发布了一段基于本地模型 Qwen 35B 的真实任务视频，对比 OpenClaw 和 Hermes Agent 在抓取 GitHub 仓库 star 历史、分析增长 spike 并构建实时仪表盘上的表现。OpenClaw 用时 12 分 01 秒、消耗 203k tokens，Hermes Agent 用时 33 分 01 秒、消耗 257k tokens。Hermes 联创 @Teknium 反击称该基准不科学，指出单次运行、无重复测试、Qwen 35B 易循环等问题，并展示 Hermes 在公开基准和真实用户数据上全面领先，用户日 token 量已达 OpenClaw 的 2.5 倍。这场辩论揭示了 AI Agent 评测的复杂性和社区对公平对比的诉求。