11:34arXiv cs.AI@Aoyang Fang, Yifan Yang, Jin'ao Shang, Qisheng Lu, Junjielung Xu, Rui Wang, Songhan Zhang, Yuzhong Zhang, Boxi Yu, Pinjia HeOpenRCA 2.0 引入了 PAVE 协议,通过故障注入重建因果传播路径,标注了 500 个跨系统实例的步骤级因果链。在 11 个前沿 LLM 上测试,完全恢复根因集的成功率平均仅 20.7%。放宽条件后发现,模型在 76.0% 的案例中能识别至少一个正确根因服务,但只有 61.5% 能将服务与观察到的症状通过验证的因果路径关联起来。该基准揭露了仅靠结果标签评估时隐藏的未接地诊断失败模式。论文OpenRCA 2.0PAVELLM根因分析因果推理推荐理由:这篇论文搞了个新基准 OpenRCA 2.0,用 PAVE 协议给每一步因果关系打标签,发现 LLM 猜对根因容易,但连对因果路径很难——这比只看结果靠谱多了。原文
11:37arXiv cs.AI@Saimun Habib, Vaishak Belle, Fengxiang HeDeepSWIP为DeepProbLog引入单世界反事实语义,通过神经具体化将固定上下文神经谓词转为ProbLog选择,并应用单世界干预程序(SWIP)计算反事实。实验在MPI3D数据集上对比DeepTwin构造,针对12,000个查询实现2.14倍推理加速。SUMO HOV实验表明神经校准退化会偏误插件估计,而AIPW估计器可消除大部分一阶偏差。代码已开源。论文DeepSWIPDeepProbLog反事实推理因果推理神经符号系统推荐理由:想给概率逻辑程序加上精准的反事实推理?DeepSWIP用商WMC方法避免了DeepTwin的内生重复,实测快两倍多,做因果推断的朋友可以看看。原文
10:24arXiv cs.LG@Mohamed Manzour, Aditya Kumar, Augusto Luis Ballardini, Miguel Ángel Sotelo该框架采用因果推断方法进行换道预测,结合专家约束因果发现与Deep End-to-end Causal Inference (DECI) 模型。在车道线跨越事件前3秒内,平均F1分数超过95%。通过干预效应分析区分直接贡献变量与中介效应,并生成对比因果链解释。与传统基于相关性分类的方法不同,该框架提供可解释的因果推理。论文换道预测因果推理自动驾驶可解释性DECI推荐理由:这篇论文把换道预测从统计相关提升到因果推理,用DECI模型实现了95%以上的F1分数,还给出了清晰的因果链解释,做自动驾驶可解释性的一定要看。原文
09:48arXiv: DeepSeek@Pierre Beckmann, Marco Valentino, Andre Freitas精选SciR 是一个新的科学推理基准,专门评估大语言模型在科学场景下的演绎、归纳和因果推理能力。它通过从形式化对象(如演绎树、归纳规则假设、因果图)生成任务,确保答案可验证,再渲染成多文档科学文本。该基准独立控制两个难度轴:信息提取难度和推理本身难度,从而揭示模型在不同维度上的表现差异。测试六个模型后发现,两个难度轴都会降低模型性能,且效果叠加,即使是神经符号管道也受渲染影响。推理模型如DeepSeek-R1主要在推理轴上优于非推理指令模型。论文科学推理LLM评估基准测试演绎推理因果推理推荐理由:做LLM评估和科学推理研究的团队终于有了一个能独立控制提取与推理难度的基准,可以精准诊断模型短板。想了解自家模型在科学推理上到底弱在哪,建议直接看这篇。原文
12:44arXiv: OpenAI@Dhairya Dalal, Endre Sara, Ben Yemini, Christine Miller, Shmuel Kliger精选72°Causely 提出一种因果智能层,将原始可观测性遥测数据转化为结构化的拓扑与因果模型,为AI代理提供语义和因果基础。在24微服务的OpenTelemetry演示应用中,通过注入故障进行基准测试,对比Claude Code、OpenAI Codex等四种代理配置。实验显示,使用Causely后,平均诊断时间降低63%,令牌消耗减少60%,工具调用次数下降78%,根因诊断准确率从75%提升至100%。该方法解决了AI代理在SRE场景中因缺乏环境因果理解而导致的效率低下和成本高昂问题。论文因果推理SRE/运维AI代理可观测性故障诊断10 个信源在谈推荐理由:做SRE或运维自动化的团队,终于有了让AI代理真正理解生产环境因果关系的方案——诊断时间砍半、成本降六成,值得直接拿demo试试。原文