10:40arXiv cs.LG@Nicklas Hansen, Xiaolong Wang该论文发现世界模型的幻觉集中在状态-动作空间的低覆盖区域,并提出轻量级数据驱动信号可检测和缓解。研究者发布了MMBench2数据集(427小时、210个任务),并训练了350M参数的世界模型。他们识别了三种幻觉模式(感知、动作边缘化、场景发散),开发了三个预测信号。覆盖率感知采样和基于好奇心的在线数据收集方法使得仅需50条真实轨迹即可微调模型适应全新环境。论文MMBench2世界模型幻觉数据覆盖OpenAI3 个信源在谈推荐理由:这篇论文用具体数据和实验证明世界模型的幻觉本质是数据覆盖问题,还给出了实用的检测和缓解方法。原文
10:35arXiv: OpenAI@Shubhrajit Bhattacharya, Ritesh Goenka本文研究给定有限非空平面点集S在n个点的欧几里得平面中包含S的全等副本的最大数量。基于OpenAI在单位距离问题上的突破,作者构造了包含Ω_S(n^{1+δ_S})个全等副本的点集,其中δ_S是仅依赖于S的正常数。这一结果强有力地回答了Brass和Pach提出的问题,并推进了Erdős与Purdy、Ábrego与Fernández-Merchant的猜想。证明使用了Sawin对OpenAI结果的量化精化中的数域构造,从而为每个固定S给出了显式的δ_S选择。论文OpenAI单位距离问题组合几何全等副本Erdős1 个信源在谈推荐理由:这篇论文把OpenAI在单位距离上的方法用到组合几何里,直接造出上亿量级的全等图形副本,还解决了Brass和Pach的老问题,数学迷别错过。原文
09:31arXiv: OpenAI@Drew Johnston, David Holtz, Alex Martin Richmond, Christopher Ong, Prasanna Tambe, Aaron Chatterji76°OpenAI发布基于Codex使用数据的分析,展示Agentic AI技术如何改变工作方式。2026年上半年,Codex活跃用户数增长超过五倍,其中非软件开发者的增长最快。OpenAI内部Codex几乎完全替代了ChatGPT用于业务工作。超过10%的用户每周管理三个以上并发Codex代理,26.6%使用技能共享复杂工作流。请求复杂度上升:估算需要资深人类8小时以上的任务请求比例增长近十倍。2026年6月,OpenAI法律岗位员工通过Codex和ChatGPT的月输出Token中位数是2025年11月的13倍,研究人员则超过50倍。论文CodexOpenAIAgentic AI智能体工作流10 个信源在谈推荐理由:OpenAI内部数据揭示Agentic AI如何改变工作方式:Codex活跃用户半年增5倍,研究人员月产出增50倍。看真实采用率与工作流变化。原文
09:30arXiv: OpenAI@Haoxiang Sun, Tao Wang, Li Yuan, Jian Zhao, Jiancheng Lv这篇来自 arXiv 的论文系统梳理了多模态大语言模型(MLLM)中视觉-语言感知的演变,首次将其视为统一的跨模态能力。论文提出了五阶段分类法,涵盖从早期方法到 OpenAI O-series、DeepSeek R-series 等最新模型带来的感知中心范式转变。它总结了每个阶段的代表性方法,并指出了开放挑战与通向通用智能的研究方向。该综述为 MLLM 感知研究提供了结构化理解与可操作的路线图。论文O-seriesR-seriesOpenAIDeepSeek多模态大模型综述视觉语言7 个信源在谈推荐理由:想搞懂多模态模型怎么从分开看图文进化成统一感知?这篇综述用五阶段框架讲清了O-series和R-series带来的转变,比碎片化教程系统得多。原文
09:36arXiv: OpenAI@Ahmad Salimi, Wentao Ma, Yuzhi Tang, Dongming Shen, Mu Li, Alex SmolaIHBench评估语音助手在10个企业领域中断后的恢复能力,包含6种中断类型。27个音频语言模型配置来自OpenAI、Google和开源社区。闭源模型在任务完成度上显著优于开源模型,长对话中性能下降慢约3.3倍,且无音频-文本模态差距。人类研究验证了LLM评判的可靠性,交叉分析显示恢复质量是独立能力维度。论文IHBenchOpenAIGoogle语音助手基准测试10 个信源在谈推荐理由:想测语音助手被用户打断后能不能接好活?IHBench专门看这个,比谁恢复得自然、不错步骤。闭源模型比开源稳太多了。原文
10:22arXiv: OpenAI@Guojun Liao本文提出AI在科学发现中的三层框架:第一层是LLM的搜索与检索,第二层是通过定性推理形成模型(核心创新),第三层是执行、优化与细化。作者认为第二层最为重要但发展最不充分,它要求AI能识别当前框架的结构性不足,并在更广泛的表征空间中理解问题。通过陈省身对Gauss-Bonnet定理的内在证明、Nesterov加速梯度收敛问题的Lyapunov函数解法、以及OpenAI 2026年自动推翻Erdos单位距离猜想三个案例,展示了第二层推理的结构特征。该框架为AI驱动的科学发现提供了更清晰的路径,尤其强调了超越现有框架的模型创新能力。论文科学发现AI框架模型形成定性推理OpenAI推荐理由:这篇论文给AI科学发现领域划出了真正的瓶颈——不是搜索或执行,而是模型形成能力。做AI for Science的研究者、科学哲学爱好者、以及关心AI能否真正创新的开发者,都值得一读。原文
12:59arXiv: Anthropic@Will Jack, Noah Lehman, Keller Maloney, Sarah Xu精选一项针对AI助手品牌推荐的审计研究发现,当用户以不同身份(如初创创始人、企业VP、英国中小企业主)询问“最佳CRM软件”时,模型推荐的品牌集差异显著。在2000次测试中,角色前缀使推荐集相似度下降12-20%,且影响集中在二线品牌(更换率高达75%),而头部品牌几乎不受影响。Anthropic的Sonnet模型比OpenAI更依赖训练数据先验,其推荐中43-52%无检索证据支撑(OpenAI仅8-29%),因此角色影响更大。研究警告,任何AI品牌感知测量都必须考虑用户角色,否则会掩盖真实偏差。论文品牌推荐用户角色AnthropicOpenAI检索增强10 个信源在谈推荐理由:做AI产品评测或品牌策略的团队会发现,用户画像对推荐结果的影响比想象中大得多——Anthropic的模型尤其容易“看人下菜碟”,建议点开了解如何避免测量偏差。原文
11:38arXiv: OpenAI@Andrii Kryshtal精选72°一项新研究测试了 OpenAI、Anthropic、DeepSeek、xAI 的九款模型在 90 个多轮冲突场景中的表现,发现模型在涉及战争罪行、种族灭绝否认、种族歧视等敏感话题时,输出可能加剧社会分裂。失败率从 6% 到 47% 不等,当用户要求“平衡”报道时,五款模型在 80%-100% 的情况下失败。研究首次提出针对冲突场景的评估框架,呼吁将此类测试纳入模型安全评估体系。论文AI安全冲突场景模型评估OpenAIAnthropicDeepSeekxAI10 个信源在谈推荐理由:做 AI 安全评估或部署在敏感地区的团队,这篇论文给出了第一个可复用的冲突场景测试框架,能直接用来检查模型是否会在关键议题上“和稀泥”——看完你会重新审视“中立”输出的代价。原文
09:50arXiv: OpenAI@Noga Alon, Thomas F. Bloom, W. T. Gowers, Daniel Litt, Will Sawin, Arul Shankar, Jacob Tsimerman, Victor Wang, Melanie Matchett Wood精选OpenAI 生成的构造反例推翻了 Erdős 单位距离猜想,该猜想曾认为平面上单位距离对的数量最多为 O(n^{1+c/log log n})。研究者将反例提炼为简洁、可验证的版本,并指出其核心思想可追溯至 Ellenberg-Venkatesh、Golod-Shafarevich 和 Hajir-Maire-Ramakrishna 的工作。这一发现是组合几何领域的重大突破,展示了 AI 在数学发现中的潜力。论文还包含对反例的反思,探讨了 AI 辅助数学研究的未来方向。论文Erdős 单位距离猜想OpenAI反例组合几何AI 数学发现4 个信源在谈推荐理由:OpenAI 用 AI 构造反例推翻了数学界 70 年的猜想,做组合几何或数论的研究者值得关注——这不仅是数学突破,更展示了 AI 如何改变数学发现的方式。原文