14:02arXiv: OpenAI@Bowen Qin精选72°CI失败日志通常庞大且嘈杂(中位数5000行,最多20万行),编程智能体依赖上游工具将日志缩减为可管理的上下文,但此前缺乏公开的实证比较。LogDx-CI基准测试比较了11种上下文缩减工具(包括原始、tail、grep、三种RTK模式、两种LLM map-reduce摘要器、三种混合路由器)在35个真实GitHub Actions失败案例上的表现,由3个LLM调试器家族评分。关键发现包括:混合grep+tail路由器在成本和质量上占据帕累托前沿,前两名方法每个案例约0.03美元,质量与独立grep相当但token减少4.5倍;在智能体循环中,不同缩减工具的质量差距缩小了7倍,但弱上下文会导致智能体发出2-4倍的工具调用;跨家族LLM摘要-调试器组合(gpt-5-mini摘要器+Claude Haiku调试器)优于同家族组合,平均提升0.071分。所有数据、代码和可复现基础设施均已公开。论文日志缩减CI调试LLM根因诊断基准测试GitHub Actions推荐理由:做CI调试或AI编程智能体的团队终于有了可依赖的日志缩减基准——LogDx-CI直接告诉你哪种工具省钱又有效,建议做DevOps或Agent开发的点开看。原文