09:48arXiv: DeepSeek@Pierre Beckmann, Marco Valentino, Andre Freitas精选SciR 是一个新的科学推理基准,专门评估大语言模型在科学场景下的演绎、归纳和因果推理能力。它通过从形式化对象(如演绎树、归纳规则假设、因果图)生成任务,确保答案可验证,再渲染成多文档科学文本。该基准独立控制两个难度轴:信息提取难度和推理本身难度,从而揭示模型在不同维度上的表现差异。测试六个模型后发现,两个难度轴都会降低模型性能,且效果叠加,即使是神经符号管道也受渲染影响。推理模型如DeepSeek-R1主要在推理轴上优于非推理指令模型。论文科学推理LLM评估基准测试演绎推理因果推理推荐理由:做LLM评估和科学推理研究的团队终于有了一个能独立控制提取与推理难度的基准,可以精准诊断模型短板。想了解自家模型在科学推理上到底弱在哪,建议直接看这篇。原文
AITOP5月29日 08:02Opus 4.8发布:编程助手的“静默时刻”,是解放开发者,还是新门槛?🔥Anthropic 把 AI 编程的“确认键”彻底删掉了!Claude Code 搭载全新 Opus 4.8 模型,长时间任务不跑偏、不废话、不中断,像一个资深工程师一样默默干活,从功能开发到漏洞清扫全包圆,你在旁边喝茶等结果就行。过去 AI 写代码三步一问“这样可以吗”,现在它直接交完整交付物……自主编程的最后一层窗户纸,被捅破了。做自动化开发和代码审查的团队,这个模型建议直接上手,效率差距肉眼可见……
12:44arXiv: OpenAI@Dhairya Dalal, Endre Sara, Ben Yemini, Christine Miller, Shmuel Kliger精选72°Causely 提出一种因果智能层,将原始可观测性遥测数据转化为结构化的拓扑与因果模型,为AI代理提供语义和因果基础。在24微服务的OpenTelemetry演示应用中,通过注入故障进行基准测试,对比Claude Code、OpenAI Codex等四种代理配置。实验显示,使用Causely后,平均诊断时间降低63%,令牌消耗减少60%,工具调用次数下降78%,根因诊断准确率从75%提升至100%。该方法解决了AI代理在SRE场景中因缺乏环境因果理解而导致的效率低下和成本高昂问题。论文因果推理SRE/运维AI代理可观测性故障诊断10 个信源在谈推荐理由:做SRE或运维自动化的团队,终于有了让AI代理真正理解生产环境因果关系的方案——诊断时间砍半、成本降六成,值得直接拿demo试试。原文
23:39rohanpaul_ai@rohanpaul_ai精选72°Google 发布新论文 Nexus,提出将时间序列预测重构为推理问题,通过多智能体框架引入事件上下文。在 Zillow 房价测试中,基于 Claude 的版本相比直接思维链提示,平均绝对百分比误差(MAPE)降低 86.6%。Nexus 将任务分解为多个智能体:一个将混乱历史文本转为事件时间线,一个读取宏观环境,一个追踪局部冲击,最后由合成器结合历史误差校准。论文认为,大多数时间序列模型擅长模式但忽视因果,而 Nexus 通过结构化上下文让语言模型更好地利用事件信息。目前证据限于 Zillow 数据和七支股票,但方向明确:未来预测不仅要外推曲线,还要解释曲线变动的原因。论文时间序列预测多智能体框架因果推理GoogleClaude推荐理由:Nexus 把时间序列预测从纯数字游戏变成因果推理,做金融、房地产或供应链预测的团队值得关注——它用事件上下文把误差砍掉 86%,思路可以直接借鉴。原文
13:22Gary Marcus@GaryMarcus精选Gary Marcus 等学者在皇家学会《哲学汇刊 A》组织了一期关于“世界模型”的特刊,集结了 Michael Levin、David Ha、Melanie Mitchell、Joshua Tenenbaum 等顶尖研究者。特刊聚焦于当前 LLM 的局限,探讨如何通过构建世界模型实现更接近自然智能的 AI,包括因果推理、系统 2 认知和意识等核心问题。文章指出,世界模型可能是让 AI 具备可靠推理和泛化能力的关键,甚至关系到 AI 安全的未来。这一特刊标志着学界开始认真面对“超越 LLM”的硬问题。论文世界模型AGI自然智能因果推理系统2认知推荐理由:世界模型是 AI 从“鹦鹉”走向“真正理解”的关键一步,做 AI 研究或关注 AGI 路径的人,这篇特刊的阵容和问题清单值得细读。原文