全部 AI 动态 · AI 热点

6月26日

10:40

arXiv cs.LG@Nicklas Hansen, Xiaolong Wang

该论文发现世界模型的幻觉集中在状态-动作空间的低覆盖区域，并提出轻量级数据驱动信号可检测和缓解。研究者发布了MMBench2数据集（427小时、210个任务），并训练了350M参数的世界模型。他们识别了三种幻觉模式（感知、动作边缘化、场景发散），开发了三个预测信号。覆盖率感知采样和基于好奇心的在线数据收集方法使得仅需50条真实轨迹即可微调模型适应全新环境。

论文 MMBench2 世界模型幻觉数据覆盖 OpenAI

推荐理由：这篇论文用具体数据和实验证明世界模型的幻觉本质是数据覆盖问题，还给出了实用的检测和缓解方法。

原文

10:35

arXiv: OpenAI@Shubhrajit Bhattacharya, Ritesh Goenka

本文研究给定有限非空平面点集S在n个点的欧几里得平面中包含S的全等副本的最大数量。基于OpenAI在单位距离问题上的突破，作者构造了包含Ω_S(n^{1+δ_S})个全等副本的点集，其中δ_S是仅依赖于S的正常数。这一结果强有力地回答了Brass和Pach提出的问题，并推进了Erdős与Purdy、Ábrego与Fernández-Merchant的猜想。证明使用了Sawin对OpenAI结果的量化精化中的数域构造，从而为每个固定S给出了显式的δ_S选择。

论文 OpenAI 单位距离问题组合几何全等副本 Erdős

推荐理由：这篇论文把OpenAI在单位距离上的方法用到组合几何里，直接造出上亿量级的全等图形副本，还解决了Brass和Pach的老问题，数学迷别错过。

原文

09:31

arXiv: OpenAI@Drew Johnston, David Holtz, Alex Martin Richmond, Christopher Ong, Prasanna Tambe, Aaron Chatterji

76°

OpenAI发布基于Codex使用数据的分析，展示Agentic AI技术如何改变工作方式。2026年上半年，Codex活跃用户数增长超过五倍，其中非软件开发者的增长最快。OpenAI内部Codex几乎完全替代了ChatGPT用于业务工作。超过10%的用户每周管理三个以上并发Codex代理，26.6%使用技能共享复杂工作流。请求复杂度上升：估算需要资深人类8小时以上的任务请求比例增长近十倍。2026年6月，OpenAI法律岗位员工通过Codex和ChatGPT的月输出Token中位数是2025年11月的13倍，研究人员则超过50倍。

论文 Codex OpenAI Agentic AI 智能体工作流

推荐理由：OpenAI内部数据揭示Agentic AI如何改变工作方式：Codex活跃用户半年增5倍，研究人员月产出增50倍。看真实采用率与工作流变化。

原文

09:30

arXiv: OpenAI@Haoxiang Sun, Tao Wang, Li Yuan, Jian Zhao, Jiancheng Lv

这篇来自 arXiv 的论文系统梳理了多模态大语言模型（MLLM）中视觉-语言感知的演变，首次将其视为统一的跨模态能力。论文提出了五阶段分类法，涵盖从早期方法到 OpenAI O-series、DeepSeek R-series 等最新模型带来的感知中心范式转变。它总结了每个阶段的代表性方法，并指出了开放挑战与通向通用智能的研究方向。该综述为 MLLM 感知研究提供了结构化理解与可操作的路线图。

论文 O-series R-series OpenAI DeepSeek 多模态大模型综述视觉语言

推荐理由：想搞懂多模态模型怎么从分开看图文进化成统一感知？这篇综述用五阶段框架讲清了O-series和R-series带来的转变，比碎片化教程系统得多。

原文

6月19日

09:36

arXiv: OpenAI@Ahmad Salimi, Wentao Ma, Yuzhi Tang, Dongming Shen, Mu Li, Alex Smola

IHBench评估语音助手在10个企业领域中断后的恢复能力，包含6种中断类型。27个音频语言模型配置来自OpenAI、Google和开源社区。闭源模型在任务完成度上显著优于开源模型，长对话中性能下降慢约3.3倍，且无音频-文本模态差距。人类研究验证了LLM评判的可靠性，交叉分析显示恢复质量是独立能力维度。

论文 IHBench OpenAI Google 语音助手基准测试

推荐理由：想测语音助手被用户打断后能不能接好活？IHBench专门看这个，比谁恢复得自然、不错步骤。闭源模型比开源稳太多了。

原文

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

10:22

arXiv: OpenAI@Guojun Liao

本文提出AI在科学发现中的三层框架：第一层是LLM的搜索与检索，第二层是通过定性推理形成模型（核心创新），第三层是执行、优化与细化。作者认为第二层最为重要但发展最不充分，它要求AI能识别当前框架的结构性不足，并在更广泛的表征空间中理解问题。通过陈省身对Gauss-Bonnet定理的内在证明、Nesterov加速梯度收敛问题的Lyapunov函数解法、以及OpenAI 2026年自动推翻Erdos单位距离猜想三个案例，展示了第二层推理的结构特征。该框架为AI驱动的科学发现提供了更清晰的路径，尤其强调了超越现有框架的模型创新能力。

论文科学发现 AI框架模型形成定性推理 OpenAI

推荐理由：这篇论文给AI科学发现领域划出了真正的瓶颈——不是搜索或执行，而是模型形成能力。做AI for Science的研究者、科学哲学爱好者、以及关心AI能否真正创新的开发者，都值得一读。

原文

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

5月29日

12:59

arXiv: Anthropic@Will Jack, Noah Lehman, Keller Maloney, Sarah Xu

精选

论文品牌推荐用户角色 Anthropic OpenAI 检索增强

推荐理由：做AI产品评测或品牌策略的团队会发现，用户画像对推荐结果的影响比想象中大得多——Anthropic的模型尤其容易“看人下菜碟”，建议点开了解如何避免测量偏差。

原文

5月22日

11:38

arXiv: OpenAI@Andrii Kryshtal

精选72°

一项新研究测试了 OpenAI、Anthropic、DeepSeek、xAI 的九款模型在 90 个多轮冲突场景中的表现，发现模型在涉及战争罪行、种族灭绝否认、种族歧视等敏感话题时，输出可能加剧社会分裂。失败率从 6% 到 47% 不等，当用户要求“平衡”报道时，五款模型在 80%-100% 的情况下失败。研究首次提出针对冲突场景的评估框架，呼吁将此类测试纳入模型安全评估体系。

论文 AI安全冲突场景模型评估 OpenAI Anthropic DeepSeek xAI

推荐理由：做 AI 安全评估或部署在敏感地区的团队，这篇论文给出了第一个可复用的冲突场景测试框架，能直接用来检查模型是否会在关键议题上“和稀泥”——看完你会重新审视“中立”输出的代价。

原文

5月21日

09:50

arXiv: OpenAI@Noga Alon, Thomas F. Bloom, W. T. Gowers, Daniel Litt, Will Sawin, Arul Shankar, Jacob Tsimerman, Victor Wang, Melanie Matchett Wood

精选

OpenAI 生成的构造反例推翻了 Erdős 单位距离猜想，该猜想曾认为平面上单位距离对的数量最多为 O(n^{1+c/log log n})。研究者将反例提炼为简洁、可验证的版本，并指出其核心思想可追溯至 Ellenberg-Venkatesh、Golod-Shafarevich 和 Hajir-Maire-Ramakrishna 的工作。这一发现是组合几何领域的重大突破，展示了 AI 在数学发现中的潜力。论文还包含对反例的反思，探讨了 AI 辅助数学研究的未来方向。

论文 Erdős 单位距离猜想 OpenAI 反例组合几何 AI 数学发现

推荐理由：OpenAI 用 AI 构造反例推翻了数学界 70 年的猜想，做组合几何或数论的研究者值得关注——这不仅是数学突破，更展示了 AI 如何改变数学发现的方式。

原文