OpenRCA 2.0 基准:用步骤级因果标注揭示 LLM 根因分析缺陷

OpenRCA 2.0: From Outcome Labels to Causal Process Supervision

精选理由

这篇论文搞了个新基准 OpenRCA 2.0,用 PAVE 协议给每一步因果关系打标签,发现 LLM 猜对根因容易,但连对因果路径很难——这比只看结果靠谱多了。

AI 摘要

OpenRCA 2.0 引入了 PAVE 协议,通过故障注入重建因果传播路径,标注了 500 个跨系统实例的步骤级因果链。在 11 个前沿 LLM 上测试,完全恢复根因集的成功率平均仅 20.7%。放宽条件后发现,模型在 76.0% 的案例中能识别至少一个正确根因服务,但只有 61.5% 能将服务与观察到的症状通过验证的因果路径关联起来。该基准揭露了仅靠结果标签评估时隐藏的未接地诊断失败模式。

AI 翻译 · 中文

OpenRCA 2.0 引入了 PAVE 协议,通过故障注入重建因果传播路径,标注了 500 个跨系统实例的步骤级因果链。在 11 个前沿 LLM 上测试,完全恢复根因集的成功率平均仅 20.7%。放宽条件后发现,模型在 76.0% 的案例中能识别至少一个正确根因服务,但只有 61.5% 能将服务与观察到的症状通过验证的因果路径关联起来。该基准揭露了仅靠结果标签评估时隐藏的未接地诊断失败模式。

arXiv cs.AIRoot cause analysis (RCA) poses a holistic test of LLM agentic capabilities, such as long-context understanding, multi-step reasoning, and tool use. However, existing datasets suffer from a fundamental gap: they label on