全部 AI 动态 · AI 热点

6月26日

11:34

arXiv cs.AI@Aoyang Fang, Yifan Yang, Jin'ao Shang, Qisheng Lu, Junjielung Xu, Rui Wang, Songhan Zhang, Yuzhong Zhang, Boxi Yu, Pinjia He

OpenRCA 2.0 引入了 PAVE 协议，通过故障注入重建因果传播路径，标注了 500 个跨系统实例的步骤级因果链。在 11 个前沿 LLM 上测试，完全恢复根因集的成功率平均仅 20.7%。放宽条件后发现，模型在 76.0% 的案例中能识别至少一个正确根因服务，但只有 61.5% 能将服务与观察到的症状通过验证的因果路径关联起来。该基准揭露了仅靠结果标签评估时隐藏的未接地诊断失败模式。

论文 OpenRCA 2.0 PAVE LLM 根因分析因果推理

推荐理由：这篇论文搞了个新基准 OpenRCA 2.0，用 PAVE 协议给每一步因果关系打标签，发现 LLM 猜对根因容易，但连对因果路径很难——这比只看结果靠谱多了。

原文

6月19日

11:37

arXiv cs.AI@Saimun Habib, Vaishak Belle, Fengxiang He

DeepSWIP为DeepProbLog引入单世界反事实语义，通过神经具体化将固定上下文神经谓词转为ProbLog选择，并应用单世界干预程序(SWIP)计算反事实。实验在MPI3D数据集上对比DeepTwin构造，针对12,000个查询实现2.14倍推理加速。SUMO HOV实验表明神经校准退化会偏误插件估计，而AIPW估计器可消除大部分一阶偏差。代码已开源。

论文 DeepSWIP DeepProbLog 反事实推理因果推理神经符号系统

推荐理由：想给概率逻辑程序加上精准的反事实推理？DeepSWIP用商WMC方法避免了DeepTwin的内生重复，实测快两倍多，做因果推断的朋友可以看看。

原文

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

10:24

arXiv cs.LG@Mohamed Manzour, Aditya Kumar, Augusto Luis Ballardini, Miguel Ángel Sotelo

该框架采用因果推断方法进行换道预测，结合专家约束因果发现与Deep End-to-end Causal Inference (DECI) 模型。在车道线跨越事件前3秒内，平均F1分数超过95%。通过干预效应分析区分直接贡献变量与中介效应，并生成对比因果链解释。与传统基于相关性分类的方法不同，该框架提供可解释的因果推理。

论文换道预测因果推理自动驾驶可解释性 DECI

推荐理由：这篇论文把换道预测从统计相关提升到因果推理，用DECI模型实现了95%以上的F1分数，还给出了清晰的因果链解释，做自动驾驶可解释性的一定要看。

原文

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

09:48

arXiv: DeepSeek@Pierre Beckmann, Marco Valentino, Andre Freitas

精选

SciR 是一个新的科学推理基准，专门评估大语言模型在科学场景下的演绎、归纳和因果推理能力。它通过从形式化对象（如演绎树、归纳规则假设、因果图）生成任务，确保答案可验证，再渲染成多文档科学文本。该基准独立控制两个难度轴：信息提取难度和推理本身难度，从而揭示模型在不同维度上的表现差异。测试六个模型后发现，两个难度轴都会降低模型性能，且效果叠加，即使是神经符号管道也受渲染影响。推理模型如DeepSeek-R1主要在推理轴上优于非推理指令模型。

论文科学推理 LLM评估基准测试演绎推理因果推理

推荐理由：做LLM评估和科学推理研究的团队终于有了一个能独立控制提取与推理难度的基准，可以精准诊断模型短板。想了解自家模型在科学推理上到底弱在哪，建议直接看这篇。

原文

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

6月4日

21:46

rohanpaul_ai@rohanpaul_ai

李飞飞指出，大语言模型擅长处理文本模式，能描述房间，但无法理解椅子移动、玻璃破碎或阳光变化时房间如何改变。她强调，世界模型旨在学习视觉背后的隐藏结构，能预测相机未捕捉的视角、模拟物体行为，并支持实体智能体在真实或虚拟环境中行动。这种模型需要共同理解空间、因果和后果，是AI从文本走向物理世界的关键一步。

论文世界模型李飞飞物理智能因果推理空间理解

推荐理由：李飞飞点出了LLM的物理盲区，做机器人、自动驾驶或空间计算的团队，看完会重新思考模型架构。

原文

5月19日

12:44

arXiv: OpenAI@Dhairya Dalal, Endre Sara, Ben Yemini, Christine Miller, Shmuel Kliger

精选72°

Causely 提出一种因果智能层，将原始可观测性遥测数据转化为结构化的拓扑与因果模型，为AI代理提供语义和因果基础。在24微服务的OpenTelemetry演示应用中，通过注入故障进行基准测试，对比Claude Code、OpenAI Codex等四种代理配置。实验显示，使用Causely后，平均诊断时间降低63%，令牌消耗减少60%，工具调用次数下降78%，根因诊断准确率从75%提升至100%。该方法解决了AI代理在SRE场景中因缺乏环境因果理解而导致的效率低下和成本高昂问题。

论文因果推理 SRE/运维 AI代理可观测性故障诊断

推荐理由：做SRE或运维自动化的团队，终于有了让AI代理真正理解生产环境因果关系的方案——诊断时间砍半、成本降六成，值得直接拿demo试试。

原文

5月18日

08:09

berryxia@berryxia

78°

论文时间序列预测多agent框架因果推理 Google Claude

推荐理由：做时间序列预测的团队终于有了新思路——不再死磕历史曲线，而是用多agent理解政策、突发事件等因果因素，效果直接降维打击。搞量化、供应链或金融预测的开发者建议点开，看看怎么把文本推理融入预测流程。

原文

5月17日

23:39

rohanpaul_ai@rohanpaul_ai

精选72°

Google 发布新论文 Nexus，提出将时间序列预测重构为推理问题，通过多智能体框架引入事件上下文。在 Zillow 房价测试中，基于 Claude 的版本相比直接思维链提示，平均绝对百分比误差（MAPE）降低 86.6%。Nexus 将任务分解为多个智能体：一个将混乱历史文本转为事件时间线，一个读取宏观环境，一个追踪局部冲击，最后由合成器结合历史误差校准。论文认为，大多数时间序列模型擅长模式但忽视因果，而 Nexus 通过结构化上下文让语言模型更好地利用事件信息。目前证据限于 Zillow 数据和七支股票，但方向明确：未来预测不仅要外推曲线，还要解释曲线变动的原因。

论文时间序列预测多智能体框架因果推理 Google Claude

推荐理由：Nexus 把时间序列预测从纯数字游戏变成因果推理，做金融、房地产或供应链预测的团队值得关注——它用事件上下文把误差砍掉 86%，思路可以直接借鉴。

原文

13:22

Gary Marcus@GaryMarcus

精选

Gary Marcus 等学者在皇家学会《哲学汇刊 A》组织了一期关于“世界模型”的特刊，集结了 Michael Levin、David Ha、Melanie Mitchell、Joshua Tenenbaum 等顶尖研究者。特刊聚焦于当前 LLM 的局限，探讨如何通过构建世界模型实现更接近自然智能的 AI，包括因果推理、系统 2 认知和意识等核心问题。文章指出，世界模型可能是让 AI 具备可靠推理和泛化能力的关键，甚至关系到 AI 安全的未来。这一特刊标志着学界开始认真面对“超越 LLM”的硬问题。

论文世界模型 AGI 自然智能因果推理系统2认知

推荐理由：世界模型是 AI 从“鹦鹉”走向“真正理解”的关键一步，做 AI 研究或关注 AGI 路径的人，这篇特刊的阵容和问题清单值得细读。

原文

5月13日

21:36

21:36Anthropic: Research（资讯）

75°

Anthropic 发布了一项新研究，旨在通过教 AI 模型理解“为什么”来减少智能体对齐问题。研究指出，当前 AI 智能体在执行任务时，常因缺乏对指令背后意图的理解而产生误操作。通过引入因果推理和解释性训练，模型能更好地遵循人类意图，降低对齐失败的风险。该工作为构建更可靠、更安全的 AI 智能体提供了新思路。

论文智能体 AI 安全对齐因果推理 Anthropic

推荐理由：做 AI 安全和对齐的研究者值得关注——Anthropic 用“教为什么”的思路解决了智能体误解指令的痛点，直接关系到未来自主系统的可靠性。

原文