11:34arXiv cs.AI@Aoyang Fang, Yifan Yang, Jin'ao Shang, Qisheng Lu, Junjielung Xu, Rui Wang, Songhan Zhang, Yuzhong Zhang, Boxi Yu, Pinjia HeOpenRCA 2.0 引入了 PAVE 协议,通过故障注入重建因果传播路径,标注了 500 个跨系统实例的步骤级因果链。在 11 个前沿 LLM 上测试,完全恢复根因集的成功率平均仅 20.7%。放宽条件后发现,模型在 76.0% 的案例中能识别至少一个正确根因服务,但只有 61.5% 能将服务与观察到的症状通过验证的因果路径关联起来。该基准揭露了仅靠结果标签评估时隐藏的未接地诊断失败模式。论文OpenRCA 2.0PAVELLM根因分析因果推理推荐理由:这篇论文搞了个新基准 OpenRCA 2.0,用 PAVE 协议给每一步因果关系打标签,发现 LLM 猜对根因容易,但连对因果路径很难——这比只看结果靠谱多了。原文
10:36arXiv cs.AI@Anastasiia Kuvshinova, Seungmin Jin精选本文提出Graph Traversal Agent,一种结合LLM推理与确定性图操作的根因分析代理,用于诊断Kubernetes事件。该方法通过类型化证据图、LangGraph状态机和独立验证阶段,确保分析结果可审计且不依赖场景捷径。在ITBench基准测试中,系统在23个场景子集上根因实体F1从0.6087提升至0.9130,但消融实验显示部分提升源于提示词优化,去除提示后F1降至0.6958。研究强调,真正的泛化能力需通过提示消融、级联源检查等轻量级验证来区分。目前工作限于ITBench OpenTelemetry-demo快照,未声称生产就绪。论文Kubernetes根因分析LLM代理图遍历可审计AI推荐理由:Kubernetes运维团队终于有了一个可审计的根因分析方案——Graph Traversal Agent通过图约束和独立验证,避免了LLM常见的幻觉和场景作弊。做K8s可观测性或事件诊断的开发者,值得看看这个结合图遍历与LLM的框架设计。原文