OpenRCA 2.0 基准：用步骤级因果标注揭示 LLM 根因分析缺陷

精选理由

这篇论文搞了个新基准 OpenRCA 2.0，用 PAVE 协议给每一步因果关系打标签，发现 LLM 猜对根因容易，但连对因果路径很难——这比只看结果靠谱多了。

AI 摘要

OpenRCA 2.0 引入了 PAVE 协议，通过故障注入重建因果传播路径，标注了 500 个跨系统实例的步骤级因果链。在 11 个前沿 LLM 上测试，完全恢复根因集的成功率平均仅 20.7%。放宽条件后发现，模型在 76.0% 的案例中能识别至少一个正确根因服务，但只有 61.5% 能将服务与观察到的症状通过验证的因果路径关联起来。该基准揭露了仅靠结果标签评估时隐藏的未接地诊断失败模式。

AI 翻译 · 中文

arXiv cs.AIRoot cause analysis (RCA) poses a holistic test of LLM agentic capabilities, such as long-context understanding, multi-step reasoning, and tool use. However, existing datasets suffer from a fundamental gap: they label on…

阅读原文