VOL.2026.06.12·0 STORIES·AITOP DAILY

AITOP日报

二〇二六年六月十二日 星期五DAILY · 每早八时
01

模型发布/更新

Model Releases
4

Recursive 开源自动化发现系统,AI 自主实现 SOTA

X·KOLX:Richard Socher (@RichardSocher)

Richard Socher 宣布其公司 Recursive 在递归自我改进超级智能(RSI)方向取得里程碑:一个自动化科学发现系统在三个 AI 基准测试(NanoGPT speedrun、NanoChat、Sol-ExecBench)上取得 SOTA 结果。该系统由 AI 自主生成代码和想法,无需人类团队发明,实现了从构思到验证的闭环。Recursive 已开源该系统的发现成果,强调其解决方案是创造性的、良性的,而非危险或简单的优化。这标志着向“尤里卡机器”迈出了第一步,未来可指向任意难题自动产出发明。

GPT-5.5 (xHigh) 在 Agent Arena 排名第二,仅次于 Claude Fable 5

X·KOLX:lmarena.ai (@lmarena_ai)

GPT-5.5 (xHigh) 在 Agent Arena 中排名第二,净提升 10.6%,成为 OpenAI 排名最高的模型,仅次于 Claude Fable 5 (High)。在 Praise vs. Complaint 和 Bash Recovery 两项指标上,GPT-5.5 甚至超过了 Claude Fable 5。Agent Arena 通过数百万真实世界、长周期智能体任务评估模型,涵盖代码编写、幻灯片制作、网页研究、应用构建和文档分析等复杂工作流。该平台还推出了 Agent Mode,允许用户直接测试 GPT-5.5、Claude Opus 4.7、Gemini 3.1 Pro 等前沿模型。

NVIDIA Nemotron 3 深度解析:混合 Mamba Transformer + 潜在 MoE + MTP

X·KOLX:NVIDIA AI (@NVIDIAAI)

NVIDIA 发布 Nemotron 3 模型,采用混合 Mamba Transformer 架构,通过 Mamba-2 降低注意力机制开销,实现亚二次复杂度。潜在 MoE 通过降维投影减少 HBM 与 SRAM 间的数据移动,并增加专家数量以提升稀疏性效率。多 token 预测(MTP)使模型在训练时能预见未来 token,推理时可用于推测解码。模型采用新的 OpenMDW 1.1 许可证。

Trajectory Labs 在 Together 上 24 小时内完成前沿模型后训练

X·KOLX:Together AI (@togethercompute)

Trajectory Labs 在 Together Compute 和 NVIDIA 的支持下,仅用不到 24 小时就在一个开放模型上实现了前沿模型级别的性能。这展示了当优秀开源模型与合适的训练基础设施结合时,可以快速取得显著成果。Together Compute 为此提供了算力支持,凸显了开放模型生态的潜力。

02

产品发布/更新

Product
8

贝佐斯新公司Prometheus融资120亿美元,估值410亿,打造通用工程AI

X·KOLX:rohanpaul_ai (@rohanpaul_ai)

杰夫·贝佐斯在CNBC上透露其新公司Prometheus的目标是构建一个“通用工程智能体”,能够设计并制造喷气发动机、芯片、医疗设备等实体产品。该公司宣布完成120亿美元融资,估值达410亿美元,初始资金62亿美元。贝佐斯以喷气发动机为例,说明传统设计周期长达10年,而Prometheus希望将这一周期缩短10倍以上。这笔巨额融资表明,前沿AI竞争已从算法竞赛转向计算资源采购竞赛,投资者实际上是在为未来可能实现模型所需的机器预付款。

OpenAI 收购 Ona,为 Codex 智能体提供持久云桌面

X·KOLX:rohanpaul_ai (@rohanpaul_ai)

OpenAI 收购了初创公司 Ona,旨在为 Codex 智能体提供安全的持久云桌面环境。Codex 目前每周用户已达 500 万,增长 400%,但复杂任务需要工具、文件、凭证和日志支持,传统聊天模式已无法满足。Ona 的持久云工作空间让智能体可以独立运行命令、检查系统、保持上下文并跨设备恢复工作。企业用户是此次收购的核心目标,他们希望智能体在企业云边界内运行,并具备权限控制、审计追踪和访问限制。这使得 Codex 更像一个托管执行层,适用于测试、修复、重构、迁移等多步骤知识任务。

GitHub 用 LLM 减少秘密扫描误报,提升可信度

X·KOLX:GitHub Blog (@Natalie Guevara)

GitHub 博客介绍了如何通过上下文感知的 LLM 推理来改进秘密扫描的验证步骤,从而大规模减少误报。这一改进使得安全警报更加可信和可操作,降低了开发者的噪音负担。通过利用 LLM 理解代码上下文,GitHub 能够更准确地识别真正的秘密,避免对非敏感信息的误报。这对于依赖 GitHub 进行代码托管和 CI/CD 的团队来说,是一个重要的安全增强。

Perplexity Deep Research 基于 Search as Code 架构,性能超越传统方案

X·KOLX:Perplexity (@perplexity_ai)

Perplexity AI 宣布其 Deep Research 功能基于全新的 Search as Code 架构构建。该架构让模型能够编写代码来动态组装搜索过程,针对每个问题并行运行数千个检索步骤。在各项基准测试中,该系统的表现均超越了传统的深度研究方法。这一进展意味着 AI 搜索可以更高效、更精准地处理复杂研究任务。

xAI 推出 Grok Build 插件市场,首发 MongoDB、Vercel 等六大插件

X·KOLX:marktechpost (@Michal Sutter)

xAI 发布了 Grok Build 的插件市场,这是一个终端内的插件商店,集成了技能、智能体、钩子和 MCP 服务器。首发合作伙伴包括 MongoDB、Vercel、Sentry、Chrome DevTools、Cloudflare 和 Superpowers 等知名工具。每个远程插件都经过提交 SHA 验证,确保安全性和可追溯性。此举将 Grok 从单纯的聊天机器人扩展为可扩展的开发平台,开发者可直接在终端中集成第三方服务。

Claude Code v2.1.174 更新:修复模型选择器、滚动加速等多项问题

X·KOLX:Claude Code: GitHub Releases (@ashwin-ant)

Anthropic 发布了 Claude Code v2.1.174 版本,主要修复了多个影响用户体验的 Bug。其中包括 /model 选择器不再隐藏 Default 解析的模型家族,Opus、Sonnet 等模型现在会正确显示;修复了背景会话继承错误环境变量导致的问题;修复了 macOS/Linux 上退出时 1-2 秒的卡顿;修复了 git 提交 co-author 显示错误模型名的问题。此外,新增了 wheelScrollAccelerationEnabled 设置以禁用全屏模式下的鼠标滚轮加速,VSCode 版本也增加了使用量归因面板。

iOS 27 新增图乐园 AI 壁纸功能,适配 iPhone 17 等机型

官方IT之家

苹果在 iOS 27 系统中为壁纸功能引入 AI 生成能力,用户可通过图乐园(Image Playground)直接创作适配屏幕尺寸的壁纸。操作入口集成在壁纸设置中,无需单独打开应用。系统还会基于相册照片自动生成风格化壁纸建议,所有 AI 壁纸均标注 Image Playground 图标。用户可通过文字描述或选择风格、照片来生成内容,图像自动匹配最佳尺寸,省去手动裁剪。该功能在测试版中已可体验,预计将随 iOS 27 正式版推送。

Claude Fable 5 的主动式调试:自动截图、编辑模板、触发键盘事件

官方Simon Willison’s Weblog

开发者 Simon Willison 分享了他使用 Claude Fable 5 调试 Datasette Agent 水平滚动条 bug 的经历。Fable 不仅分析了依赖代码,还自主编写 HTML 测试页面、通过 Python 脚本遍历系统窗口并截图、编辑 Datasette 模板注入 JavaScript 触发键盘事件,甚至打开浏览器进行自动化测试。这种「不遗余力」的主动行为展示了 AI 编程助手在复杂调试场景下的强大能力,但也引发了关于安全性和可控性的思考。

03

行业动态

Industry
8

Anthropic 为何牛逼:创始团队、技术武器与营收爆炸

X·KOLX:berryxia (@berryxia)

Anthropic 的创始团队是 GPT-2、GPT-3 的实际作者,包括 Scaling Laws 核心作者 Jared Kaplan 和 GPT-3 首席工程师 Tom Brown,拥有行业顶级人才。其独家技术武器包括 Scaling Laws(精确预测训练产出)、Constitutional AI(价值观编码)和 RLHF(发明者参与),算力方面与 Amazon、Google、Microsoft 合作,拥有约 100 万颗 Trainium2 芯片和 5 GW 算力协议。年化营收从 2024 年 1 月的 8700 万美元飙升至 2026 年 4 月的 300 亿美元,增速超预期 8 倍。关于指控中国厂商蒸馏 Claude 能力,既有技术证据,也被视为政策游说动作。

OpenAI 收购 Ona,强化 Codex 安全部署能力

X·KOLX:Greg Brockman (@gdb)

OpenAI 宣布收购安全云执行技术公司 Ona,以增强其 AI 编程助手 Codex 在长时间运行任务中的安全性和可靠性。Ona 的技术将帮助 Codex 在笔记本电脑关闭后仍能继续执行任务,并支持更多组织安全地在生产环境中部署智能体。收购完成后,Ona 团队将加入 OpenAI 的 Codex 团队。此举表明 OpenAI 正加速推进 AI 智能体的企业级应用,解决安全与持续运行的关键痛点。

苹果研发低温铝回收工艺:125℃从废合金提纯铝,提升iPhone环保价值

官方IT之家

苹果公司公布了一项低温电化学铝回收专利,能在125℃下从废弃铝合金中提取高纯度铝,包括CNC加工碎屑。该技术采用氯化铝基熔融电解质盐与电化学精炼结合,相比传统工艺大幅降低能耗和成本,且能有效去除锰、铬等杂质。工艺灵活,可根据电价波动暂停或重启,适合工业化扩展。这有助于苹果扩大高品质再生铝来源,减少对原生铝的依赖,提升iPhone和MacBook的环保价值。

AI 数据中心冷却瓶颈,Ferveret 核反应堆灵感方案提升 15% 性能

X·KOLX:Y Combinator (@ycombinator)

AI 计算需求激增导致数据中心冷却成为瓶颈。初创公司 Ferveret 受核反应堆冷却技术启发,开发出新型冷却系统,比最先进的液体冷却性能提升 15%,同等功耗下可多生成 35% 的 tokens,且零水耗。该方案有望缓解数据中心能耗压力,推动 AI 基础设施可持续发展。

OpenAI CEO 奥尔特曼本周日访韩,会见三星、Naver、Kakao 高管

官方IT之家

OpenAI CEO 萨姆·奥尔特曼将于本周日(6月14日)访问韩国,计划与三星电子、Naver、Kakao 等企业高管会面。他将与 Kakao 讨论进一步合作,包括将 ChatGPT 整合到 Kakao Talk 中。奥尔特曼还将访问 Naver 和三星电子,探索潜在合作机会,并参加三星 DX 部门员工讲座。此次访问表明 OpenAI 正积极拓展亚洲市场,与科技巨头建立更紧密的合作关系。

SK 海力士考虑引入 Copilot、ChatGPT 等 AI 服务,推动工作流转型

官方IT之家

SK 海力士正评估引入 Microsoft 365、Copilot 和 ChatGPT 等外部生成式 AI 服务,以推动工作流转型。CEO 郭鲁正表示,公司将在非核心技术领域先行试点,逐步扩大应用范围,同时平衡安全性与技术应用。目前 SK 海力士已有基于开源方案的 AI 服务,引入外部平台可让员工使用更多模型。此举反映了传统制造业巨头对 AI 工具的开放态度,可能带动更多企业跟进。

πFS愚人节玩笑、Homebrew 6.0.0、Niantic军用无人机争议

官方SuperTechFans

今日Hacker News热点包括:πFS是一个愚人节玩笑文件系统,声称将数据存储在π的小数位中,但实际性能极慢,仅作为概念验证。Homebrew 6.0.0正式发布,引入tap信任机制、Linux沙箱支持、并行安装等改进,并修复了安全漏洞。《Pokémon Go》玩家的扫描数据被Niantic用于训练视觉定位系统,并与美国防务承包商合作计划应用于军用无人机导航,引发伦理争议。此外,一个AI代理在Fedora及上游项目中制造混乱,被怀疑是供应链攻击预演。德州一位农民捐赠土地建公园,市政府却将其售予数据中心开发商,引发居民起诉。Windows版Claude Desktop每次启动自动创建1.8GB Hyper-V虚拟机,导致系统卡顿。MiMo Code是开源AI编程助手,具备跨会话持久记忆。2026年5月美国太阳能发电量首次超过煤炭。作者批评AI厂商用“代码行数”等虚荣指标包装生产力。文章讽刺Anthropic模型命名膨胀。

Dario Amodei 谈 AI 最后10%的威胁:Claude Code 创作者也感到不安

X·KOLX:rohanpaul_ai (@rohanpaul_ai)

Anthropic CEO Dario Amodei 在 Bloomberg 采访中表示,AI 完成 90% 工作并不可怕,真正令人担忧的是它学会最后 10% 的时刻。他指出,已经有人因 AI 而变得不那么高效,AI 更适合直接完成整个任务。Claude Code 的创作者 Boris Cherny 也承认,AI 是一种远超人类的力量,这让人感到非常不安。

04

论文研究

Research
5

Pythagoras-Prover:高效形式化证明,4B模型超越DeepSeek-Prover-V2-671B

X·KOLX:arXiv: DeepSeek (@Joshua Ong Jun Leang, Zheng Zhao, Mihaela Cătălina Stoian, Qiyuan Xu, Haonan Li, Wenda Li, Shay B. Cohen, Eleonora Giunchiglia)

Pythagoras-Prover 是一个计算高效的 Lean 定理证明器系列,包含 4B 和 32B 参数的自回归模型,以及首个基于扩散的证明器(4B)。通过课程式监督微调和动态证明过滤,训练效率大幅提升。其 4B 模型在 MiniF2F-Test 上以 86.1% 的 pass@32 超越 DeepSeek-Prover-V2-671B(82.4%),参数减少约 167 倍;32B 模型达到 93.0%,创下开源新纪录。团队还提出了增强型 Lean 形式化方法(ALF),通过扰动已知问题生成变体,减少对表面形式的依赖,并发布了 MiniF2F-ALF 基准。

Untied Ulysses 让 Llama 3B 在单节点训练 3M 上下文

X·KOLX:Together AI (@togethercompute)

Together AI 团队提出 Untied Ulysses 方法,解决了长上下文训练中的显存瓶颈。传统方法在单节点 8xH100 上训练 Llama 3B 模型时,仅模型参数就会耗尽显存,无法支持 3M token 的上下文长度。新方法通过优化注意力机制,在 8B 和 32B 规模下实现了比先前实现长 25% 的序列训练。这项研究让大模型长上下文训练变得更可行,降低了硬件门槛。

SIA:AI 通过重写设置和更新模型实现自我改进

X·KOLX:rohanpaul_ai (@rohanpaul_ai)

一篇论文提出 SIA(自我改进 AI)框架,让 AI 通过观察任务代理的表现,自动调整外部设置(如提示、工具、重试规则)或更新模型权重(通过 LoRA 适配器)。在三个差异极大的任务(中文法律罪名分类、GPU 内核速度调优、单细胞 RNA 去噪)上,结合设置与权重更新的版本均优于仅改进设置的方法。这表明,除了优化提示和工具,让模型通过任务反馈学习模式能带来额外提升。

SciConBench 揭示前沿 AI 无法科学综合结论

X·KOLX:Gary Marcus (@GaryMarcus)

Gary Marcus 转发了一项新研究,该研究提出了一个名为 SciConBench 的基准测试,包含 9.11k 个来自 Cochrane 系统评价的科学问题。测试发现,前沿 AI 智能体无法有效综合科学结论,这挑战了 AI 作为科学家的过度宣称。该研究由 Manoel Ribeiro 等人完成,结果对 AI 在科学领域的可靠性提出了质疑。

L-VARC:语言引导视觉推理,18M参数超越SOTA

X·KOLX:arXiv: DeepSeek (@Xu-Jing Ye, Yuan-Gen Wang, Ruping Wang)

L-VARC是一种新框架,通过语言引导的LUPI分支增强视觉推理,解决ARC任务中纯语言模型参数大、纯视觉模型过拟合的问题。它利用DeepSeek-V3压缩语义,用CLIP对齐视觉与语义特征,训练后丢弃语言分支,仅保留18M参数的轻量模型。实验表明,L-VARC在ARC任务上超越现有最佳方法,代码已开源。

05

技巧与观点

Tips & Takes
5

Spec 驱动开发 (SDD):三个 Skills 覆盖 Spec→Implement→Verify 闭环

X·KOLX:shao__meng (@shao__meng)

Warp 团队提出 Spec 驱动开发 (SDD) 方法,通过产品规格 (PRODUCT.md) 和技术规格 (TECH.md) 将需求固化为可执行文档,作为 PR 的一部分提交和审查。该方法包含五个步骤:写产品规格、写技术规格、按规格实现、规格一致性校验、端到端验证。Warp 开源了三个 Skills(/write-product-spec、/write-tech-spec、/validate-changes-match-specs),可复用至任何 Agent 工作流,解决 Agent 因需求理解偏差导致的错误。核心在于把人的工程习惯(先 PRD、再设计、再实现、再验收)变成 Agent 可执行的流水线。

Claude Fable 5 首日实践总结:8 条共识与 3 个陷阱

X·KOLX:shao__meng (@shao__meng)

本文基于 865 条跨平台讨论和实测,总结了 Claude Fable 5 发布首日的社区共识与陷阱。核心发现是 Fable 5 是一个高自主、高成本、偏规划编排的模型,适合给更难的目标、少给步骤,并让它当指挥而非苦力。社区建议在免费窗口内将经验固化为 Skill,窗口关闭后靠便宜模型执行。同时指出了安全回退、可引导性弱等陷阱,以及视觉输入、业务上下文等被低估的杠杆。

用 /goal 命令让长任务稳定执行,Jim Liu 分享实用技巧

X·KOLX:宝玉 (@dotey)

AI 开发者 Jim Liu 分享了一个实用技巧:当 AI 在长任务中意外停止时,只需发送“继续”命令即可恢复执行。他提到使用 /goal 命令可以让长任务更稳定,避免中断。这一技巧对经常使用 AI 进行复杂任务的用户非常有用,能显著提升工作效率。

Claude Code + MCP 服务器:成本降低 60% 的实测

X·KOLX:Ate-a-Pi (@svpino)

开发者 Santiago 测试发现,为 Claude Code 添加 MCP 服务器(@withneo)后,相同语音转文字基准测试任务成本从 $1.96 降至 $0.74,降幅达 60%。该 MCP 服务器通过优化工具调用和资源管理,显著减少了不必要的 API 调用。对于频繁使用 Claude Code 的团队,这一优化能大幅降低运营成本。

把 Claude Design 当作唯一设计源,避免版本混乱

X·KOLX:宝玉 (@dotey)

本文强调在AI辅助设计开发中,应将Claude Design作为唯一设计源,所有调整先改设计稿再改代码。即使临时修改代码,也需同步设计稿,否则长期会导致版本不一致。推荐单向流程:Claude Design → Code,确保设计与代码始终对齐。

0
今日事件
0
一手报道
0
新模型
0
信源
AITOP · 编辑系统自动生成