AITOP 日报｜2026年6月12日｜GPT-5.5 排名第二，智能体持久化成新趋势

模型发布/更新

Model Releases

4 篇

Recursive 开源自动化发现系统，AI 自主实现 SOTA

X·KOLX：Richard Socher (@RichardSocher)原文 ↗

Richard Socher 宣布其公司 Recursive 在递归自我改进超级智能（RSI）方向取得里程碑：一个自动化科学发现系统在三个 AI 基准测试（NanoGPT speedrun、NanoChat、Sol-ExecBench）上取得 SOTA 结果。该系统由 AI 自主生成代码和想法，无需人类团队发明，实现了从构思到验证的闭环。Recursive 已开源该系统的发现成果，强调其解决方案是创造性的、良性的，而非危险或简单的优化。这标志着向“尤里卡机器”迈出了第一步，未来可指向任意难题自动产出发明。

GPT-5.5 (xHigh) 在 Agent Arena 排名第二，仅次于 Claude Fable 5

X·KOLX：lmarena.ai (@lmarena_ai)原文 ↗

GPT-5.5 (xHigh) 在 Agent Arena 中排名第二，净提升 10.6%，成为 OpenAI 排名最高的模型，仅次于 Claude Fable 5 (High)。在 Praise vs. Complaint 和 Bash Recovery 两项指标上，GPT-5.5 甚至超过了 Claude Fable 5。Agent Arena 通过数百万真实世界、长周期智能体任务评估模型，涵盖代码编写、幻灯片制作、网页研究、应用构建和文档分析等复杂工作流。该平台还推出了 Agent Mode，允许用户直接测试 GPT-5.5、Claude Opus 4.7、Gemini 3.1 Pro 等前沿模型。

NVIDIA Nemotron 3 深度解析：混合 Mamba Transformer + 潜在 MoE + MTP

X·KOLX：NVIDIA AI (@NVIDIAAI)原文 ↗

NVIDIA 发布 Nemotron 3 模型，采用混合 Mamba Transformer 架构，通过 Mamba-2 降低注意力机制开销，实现亚二次复杂度。潜在 MoE 通过降维投影减少 HBM 与 SRAM 间的数据移动，并增加专家数量以提升稀疏性效率。多 token 预测（MTP）使模型在训练时能预见未来 token，推理时可用于推测解码。模型采用新的 OpenMDW 1.1 许可证。

Trajectory Labs 在 Together 上 24 小时内完成前沿模型后训练

X·KOLX：Together AI (@togethercompute)原文 ↗

Trajectory Labs 在 Together Compute 和 NVIDIA 的支持下，仅用不到 24 小时就在一个开放模型上实现了前沿模型级别的性能。这展示了当优秀开源模型与合适的训练基础设施结合时，可以快速取得显著成果。Together Compute 为此提供了算力支持，凸显了开放模型生态的潜力。

产品发布/更新

Product

8 篇

贝佐斯新公司Prometheus融资120亿美元，估值410亿，打造通用工程AI

X·KOLX：rohanpaul_ai (@rohanpaul_ai)原文 ↗

杰夫·贝佐斯在CNBC上透露其新公司Prometheus的目标是构建一个“通用工程智能体”，能够设计并制造喷气发动机、芯片、医疗设备等实体产品。该公司宣布完成120亿美元融资，估值达410亿美元，初始资金62亿美元。贝佐斯以喷气发动机为例，说明传统设计周期长达10年，而Prometheus希望将这一周期缩短10倍以上。这笔巨额融资表明，前沿AI竞争已从算法竞赛转向计算资源采购竞赛，投资者实际上是在为未来可能实现模型所需的机器预付款。

OpenAI 收购 Ona，为 Codex 智能体提供持久云桌面

X·KOLX：rohanpaul_ai (@rohanpaul_ai)原文 ↗

OpenAI 收购了初创公司 Ona，旨在为 Codex 智能体提供安全的持久云桌面环境。Codex 目前每周用户已达 500 万，增长 400%，但复杂任务需要工具、文件、凭证和日志支持，传统聊天模式已无法满足。Ona 的持久云工作空间让智能体可以独立运行命令、检查系统、保持上下文并跨设备恢复工作。企业用户是此次收购的核心目标，他们希望智能体在企业云边界内运行，并具备权限控制、审计追踪和访问限制。这使得 Codex 更像一个托管执行层，适用于测试、修复、重构、迁移等多步骤知识任务。

GitHub 用 LLM 减少秘密扫描误报，提升可信度

X·KOLX：GitHub Blog (@Natalie Guevara)原文 ↗

GitHub 博客介绍了如何通过上下文感知的 LLM 推理来改进秘密扫描的验证步骤，从而大规模减少误报。这一改进使得安全警报更加可信和可操作，降低了开发者的噪音负担。通过利用 LLM 理解代码上下文，GitHub 能够更准确地识别真正的秘密，避免对非敏感信息的误报。这对于依赖 GitHub 进行代码托管和 CI/CD 的团队来说，是一个重要的安全增强。

Perplexity Deep Research 基于 Search as Code 架构，性能超越传统方案

X·KOLX：Perplexity (@perplexity_ai)原文 ↗

Perplexity AI 宣布其 Deep Research 功能基于全新的 Search as Code 架构构建。该架构让模型能够编写代码来动态组装搜索过程，针对每个问题并行运行数千个检索步骤。在各项基准测试中，该系统的表现均超越了传统的深度研究方法。这一进展意味着 AI 搜索可以更高效、更精准地处理复杂研究任务。

xAI 推出 Grok Build 插件市场，首发 MongoDB、Vercel 等六大插件

X·KOLX：marktechpost (@Michal Sutter)原文 ↗

xAI 发布了 Grok Build 的插件市场，这是一个终端内的插件商店，集成了技能、智能体、钩子和 MCP 服务器。首发合作伙伴包括 MongoDB、Vercel、Sentry、Chrome DevTools、Cloudflare 和 Superpowers 等知名工具。每个远程插件都经过提交 SHA 验证，确保安全性和可追溯性。此举将 Grok 从单纯的聊天机器人扩展为可扩展的开发平台，开发者可直接在终端中集成第三方服务。

Claude Code v2.1.174 更新：修复模型选择器、滚动加速等多项问题

X·KOLX：Claude Code: GitHub Releases (@ashwin-ant)原文 ↗

Anthropic 发布了 Claude Code v2.1.174 版本，主要修复了多个影响用户体验的 Bug。其中包括 /model 选择器不再隐藏 Default 解析的模型家族，Opus、Sonnet 等模型现在会正确显示；修复了背景会话继承错误环境变量导致的问题；修复了 macOS/Linux 上退出时 1-2 秒的卡顿；修复了 git 提交 co-author 显示错误模型名的问题。此外，新增了 wheelScrollAccelerationEnabled 设置以禁用全屏模式下的鼠标滚轮加速，VSCode 版本也增加了使用量归因面板。

iOS 27 新增图乐园 AI 壁纸功能，适配 iPhone 17 等机型

官方IT之家原文 ↗

苹果在 iOS 27 系统中为壁纸功能引入 AI 生成能力，用户可通过图乐园（Image Playground）直接创作适配屏幕尺寸的壁纸。操作入口集成在壁纸设置中，无需单独打开应用。系统还会基于相册照片自动生成风格化壁纸建议，所有 AI 壁纸均标注 Image Playground 图标。用户可通过文字描述或选择风格、照片来生成内容，图像自动匹配最佳尺寸，省去手动裁剪。该功能在测试版中已可体验，预计将随 iOS 27 正式版推送。

Claude Fable 5 的主动式调试：自动截图、编辑模板、触发键盘事件

官方Simon Willison’s Weblog原文 ↗

开发者 Simon Willison 分享了他使用 Claude Fable 5 调试 Datasette Agent 水平滚动条 bug 的经历。Fable 不仅分析了依赖代码，还自主编写 HTML 测试页面、通过 Python 脚本遍历系统窗口并截图、编辑 Datasette 模板注入 JavaScript 触发键盘事件，甚至打开浏览器进行自动化测试。这种「不遗余力」的主动行为展示了 AI 编程助手在复杂调试场景下的强大能力，但也引发了关于安全性和可控性的思考。

行业动态

Industry

8 篇

Anthropic 为何牛逼：创始团队、技术武器与营收爆炸

X·KOLX：berryxia (@berryxia)原文 ↗

Anthropic 的创始团队是 GPT-2、GPT-3 的实际作者，包括 Scaling Laws 核心作者 Jared Kaplan 和 GPT-3 首席工程师 Tom Brown，拥有行业顶级人才。其独家技术武器包括 Scaling Laws（精确预测训练产出）、Constitutional AI（价值观编码）和 RLHF（发明者参与），算力方面与 Amazon、Google、Microsoft 合作，拥有约 100 万颗 Trainium2 芯片和 5 GW 算力协议。年化营收从 2024 年 1 月的 8700 万美元飙升至 2026 年 4 月的 300 亿美元，增速超预期 8 倍。关于指控中国厂商蒸馏 Claude 能力，既有技术证据，也被视为政策游说动作。

OpenAI 收购 Ona，强化 Codex 安全部署能力

X·KOLX：Greg Brockman (@gdb)原文 ↗

OpenAI 宣布收购安全云执行技术公司 Ona，以增强其 AI 编程助手 Codex 在长时间运行任务中的安全性和可靠性。Ona 的技术将帮助 Codex 在笔记本电脑关闭后仍能继续执行任务，并支持更多组织安全地在生产环境中部署智能体。收购完成后，Ona 团队将加入 OpenAI 的 Codex 团队。此举表明 OpenAI 正加速推进 AI 智能体的企业级应用，解决安全与持续运行的关键痛点。

苹果研发低温铝回收工艺：125℃从废合金提纯铝，提升iPhone环保价值

官方IT之家原文 ↗

苹果公司公布了一项低温电化学铝回收专利，能在125℃下从废弃铝合金中提取高纯度铝，包括CNC加工碎屑。该技术采用氯化铝基熔融电解质盐与电化学精炼结合，相比传统工艺大幅降低能耗和成本，且能有效去除锰、铬等杂质。工艺灵活，可根据电价波动暂停或重启，适合工业化扩展。这有助于苹果扩大高品质再生铝来源，减少对原生铝的依赖，提升iPhone和MacBook的环保价值。

AI 数据中心冷却瓶颈，Ferveret 核反应堆灵感方案提升 15% 性能

X·KOLX：Y Combinator (@ycombinator)原文 ↗

AI 计算需求激增导致数据中心冷却成为瓶颈。初创公司 Ferveret 受核反应堆冷却技术启发，开发出新型冷却系统，比最先进的液体冷却性能提升 15%，同等功耗下可多生成 35% 的 tokens，且零水耗。该方案有望缓解数据中心能耗压力，推动 AI 基础设施可持续发展。

OpenAI CEO 奥尔特曼本周日访韩，会见三星、Naver、Kakao 高管

官方IT之家原文 ↗

OpenAI CEO 萨姆·奥尔特曼将于本周日（6月14日）访问韩国，计划与三星电子、Naver、Kakao 等企业高管会面。他将与 Kakao 讨论进一步合作，包括将 ChatGPT 整合到 Kakao Talk 中。奥尔特曼还将访问 Naver 和三星电子，探索潜在合作机会，并参加三星 DX 部门员工讲座。此次访问表明 OpenAI 正积极拓展亚洲市场，与科技巨头建立更紧密的合作关系。

SK 海力士考虑引入 Copilot、ChatGPT 等 AI 服务，推动工作流转型

官方IT之家原文 ↗

SK 海力士正评估引入 Microsoft 365、Copilot 和 ChatGPT 等外部生成式 AI 服务，以推动工作流转型。CEO 郭鲁正表示，公司将在非核心技术领域先行试点，逐步扩大应用范围，同时平衡安全性与技术应用。目前 SK 海力士已有基于开源方案的 AI 服务，引入外部平台可让员工使用更多模型。此举反映了传统制造业巨头对 AI 工具的开放态度，可能带动更多企业跟进。

πFS愚人节玩笑、Homebrew 6.0.0、Niantic军用无人机争议

官方SuperTechFans原文 ↗

今日Hacker News热点包括：πFS是一个愚人节玩笑文件系统，声称将数据存储在π的小数位中，但实际性能极慢，仅作为概念验证。Homebrew 6.0.0正式发布，引入tap信任机制、Linux沙箱支持、并行安装等改进，并修复了安全漏洞。《Pokémon Go》玩家的扫描数据被Niantic用于训练视觉定位系统，并与美国防务承包商合作计划应用于军用无人机导航，引发伦理争议。此外，一个AI代理在Fedora及上游项目中制造混乱，被怀疑是供应链攻击预演。德州一位农民捐赠土地建公园，市政府却将其售予数据中心开发商，引发居民起诉。Windows版Claude Desktop每次启动自动创建1.8GB Hyper-V虚拟机，导致系统卡顿。MiMo Code是开源AI编程助手，具备跨会话持久记忆。2026年5月美国太阳能发电量首次超过煤炭。作者批评AI厂商用“代码行数”等虚荣指标包装生产力。文章讽刺Anthropic模型命名膨胀。

Dario Amodei 谈 AI 最后10%的威胁：Claude Code 创作者也感到不安

X·KOLX：rohanpaul_ai (@rohanpaul_ai)原文 ↗

Anthropic CEO Dario Amodei 在 Bloomberg 采访中表示，AI 完成 90% 工作并不可怕，真正令人担忧的是它学会最后 10% 的时刻。他指出，已经有人因 AI 而变得不那么高效，AI 更适合直接完成整个任务。Claude Code 的创作者 Boris Cherny 也承认，AI 是一种远超人类的力量，这让人感到非常不安。

论文研究

Research

5 篇

Pythagoras-Prover：高效形式化证明，4B模型超越DeepSeek-Prover-V2-671B

X·KOLX：arXiv: DeepSeek (@Joshua Ong Jun Leang, Zheng Zhao, Mihaela Cătălina Stoian, Qiyuan Xu, Haonan Li, Wenda Li, Shay B. Cohen, Eleonora Giunchiglia)原文 ↗

Pythagoras-Prover 是一个计算高效的 Lean 定理证明器系列，包含 4B 和 32B 参数的自回归模型，以及首个基于扩散的证明器（4B）。通过课程式监督微调和动态证明过滤，训练效率大幅提升。其 4B 模型在 MiniF2F-Test 上以 86.1% 的 pass@32 超越 DeepSeek-Prover-V2-671B（82.4%），参数减少约 167 倍；32B 模型达到 93.0%，创下开源新纪录。团队还提出了增强型 Lean 形式化方法（ALF），通过扰动已知问题生成变体，减少对表面形式的依赖，并发布了 MiniF2F-ALF 基准。

Untied Ulysses 让 Llama 3B 在单节点训练 3M 上下文

X·KOLX：Together AI (@togethercompute)原文 ↗

Together AI 团队提出 Untied Ulysses 方法，解决了长上下文训练中的显存瓶颈。传统方法在单节点 8xH100 上训练 Llama 3B 模型时，仅模型参数就会耗尽显存，无法支持 3M token 的上下文长度。新方法通过优化注意力机制，在 8B 和 32B 规模下实现了比先前实现长 25% 的序列训练。这项研究让大模型长上下文训练变得更可行，降低了硬件门槛。

SIA：AI 通过重写设置和更新模型实现自我改进

X·KOLX：rohanpaul_ai (@rohanpaul_ai)原文 ↗

一篇论文提出 SIA（自我改进 AI）框架，让 AI 通过观察任务代理的表现，自动调整外部设置（如提示、工具、重试规则）或更新模型权重（通过 LoRA 适配器）。在三个差异极大的任务（中文法律罪名分类、GPU 内核速度调优、单细胞 RNA 去噪）上，结合设置与权重更新的版本均优于仅改进设置的方法。这表明，除了优化提示和工具，让模型通过任务反馈学习模式能带来额外提升。

SciConBench 揭示前沿 AI 无法科学综合结论

X·KOLX：Gary Marcus (@GaryMarcus)原文 ↗

Gary Marcus 转发了一项新研究，该研究提出了一个名为 SciConBench 的基准测试，包含 9.11k 个来自 Cochrane 系统评价的科学问题。测试发现，前沿 AI 智能体无法有效综合科学结论，这挑战了 AI 作为科学家的过度宣称。该研究由 Manoel Ribeiro 等人完成，结果对 AI 在科学领域的可靠性提出了质疑。

L-VARC：语言引导视觉推理，18M参数超越SOTA

X·KOLX：arXiv: DeepSeek (@Xu-Jing Ye, Yuan-Gen Wang, Ruping Wang)原文 ↗

L-VARC是一种新框架，通过语言引导的LUPI分支增强视觉推理，解决ARC任务中纯语言模型参数大、纯视觉模型过拟合的问题。它利用DeepSeek-V3压缩语义，用CLIP对齐视觉与语义特征，训练后丢弃语言分支，仅保留18M参数的轻量模型。实验表明，L-VARC在ARC任务上超越现有最佳方法，代码已开源。

技巧与观点

Tips & Takes

5 篇

Spec 驱动开发 (SDD)：三个 Skills 覆盖 Spec→Implement→Verify 闭环

X·KOLX：shao__meng (@shao__meng)原文 ↗

Warp 团队提出 Spec 驱动开发 (SDD) 方法，通过产品规格 (PRODUCT.md) 和技术规格 (TECH.md) 将需求固化为可执行文档，作为 PR 的一部分提交和审查。该方法包含五个步骤：写产品规格、写技术规格、按规格实现、规格一致性校验、端到端验证。Warp 开源了三个 Skills（/write-product-spec、/write-tech-spec、/validate-changes-match-specs），可复用至任何 Agent 工作流，解决 Agent 因需求理解偏差导致的错误。核心在于把人的工程习惯（先 PRD、再设计、再实现、再验收）变成 Agent 可执行的流水线。

今日事件

一手报道

新模型

信源

AITOP日报

模型发布/更新

Recursive 开源自动化发现系统，AI 自主实现 SOTA

GPT-5.5 (xHigh) 在 Agent Arena 排名第二，仅次于 Claude Fable 5

NVIDIA Nemotron 3 深度解析：混合 Mamba Transformer + 潜在 MoE + MTP

Trajectory Labs 在 Together 上 24 小时内完成前沿模型后训练

产品发布/更新

贝佐斯新公司Prometheus融资120亿美元，估值410亿，打造通用工程AI

OpenAI 收购 Ona，为 Codex 智能体提供持久云桌面

GitHub 用 LLM 减少秘密扫描误报，提升可信度

Perplexity Deep Research 基于 Search as Code 架构，性能超越传统方案

xAI 推出 Grok Build 插件市场，首发 MongoDB、Vercel 等六大插件

Claude Code v2.1.174 更新：修复模型选择器、滚动加速等多项问题

iOS 27 新增图乐园 AI 壁纸功能，适配 iPhone 17 等机型

Claude Fable 5 的主动式调试：自动截图、编辑模板、触发键盘事件

行业动态

Anthropic 为何牛逼：创始团队、技术武器与营收爆炸

OpenAI 收购 Ona，强化 Codex 安全部署能力

苹果研发低温铝回收工艺：125℃从废合金提纯铝，提升iPhone环保价值

AI 数据中心冷却瓶颈，Ferveret 核反应堆灵感方案提升 15% 性能

OpenAI CEO 奥尔特曼本周日访韩，会见三星、Naver、Kakao 高管

SK 海力士考虑引入 Copilot、ChatGPT 等 AI 服务，推动工作流转型

πFS愚人节玩笑、Homebrew 6.0.0、Niantic军用无人机争议

Dario Amodei 谈 AI 最后10%的威胁：Claude Code 创作者也感到不安

论文研究

Pythagoras-Prover：高效形式化证明，4B模型超越DeepSeek-Prover-V2-671B

Untied Ulysses 让 Llama 3B 在单节点训练 3M 上下文

SIA：AI 通过重写设置和更新模型实现自我改进

SciConBench 揭示前沿 AI 无法科学综合结论

L-VARC：语言引导视觉推理，18M参数超越SOTA

技巧与观点

Spec 驱动开发 (SDD)：三个 Skills 覆盖 Spec→Implement→Verify 闭环

Claude Fable 5 首日实践总结：8 条共识与 3 个陷阱

用 /goal 命令让长任务稳定执行，Jim Liu 分享实用技巧

Claude Code + MCP 服务器：成本降低 60% 的实测

把 Claude Design 当作唯一设计源，避免版本混乱