AITP
精选全部 AI 动态AI 日报Agent 接入关于更新日志信源提报反馈
登录 / 注册
AITOP
全部 AI 动态
AI 相关资讯全量信息流
全部博客资讯推文论文
全部模型产品行业论文技巧
标签:日志缩减×
6月16日
20:46
AITOP6月16日 20:46
600亿美元买下Cursor,xAI终于拿到了编程工具,但真正值得跟踪的或许不是AI600亿美元买下Cursor,xAI终于拿到了编程工具,但真正值得跟踪的或许不是AI
6月12日
12:57
AITOP6月12日 12:57
Claude代码里藏了个20260612,18个月后的AI记忆革命已经开始倒计时
6月11日
15:28
AITOP6月11日 15:28
1107 vs 303:谷歌悄悄开源了一个“拆打字机”的模型,把大模型速度翻了4倍
15:23
AITOP6月11日 15:23
DiffusionGemma颠覆文本生成?自回归模型的“统治”要结束了
15:07
AITOP6月11日 15:07
每秒1107个token,Google开源的扩散模型为什么能改变本地推理格局?
5月29日
14:02
14:02arXiv: OpenAI@Bowen Qin
精选72°
CI失败日志通常庞大且嘈杂(中位数5000行,最多20万行),编程智能体依赖上游工具将日志缩减为可管理的上下文,但此前缺乏公开的实证比较。LogDx-CI基准测试比较了11种上下文缩减工具(包括原始、tail、grep、三种RTK模式、两种LLM map-reduce摘要器、三种混合路由器)在35个真实GitHub Actions失败案例上的表现,由3个LLM调试器家族评分。关键发现包括:混合grep+tail路由器在成本和质量上占据帕累托前沿,前两名方法每个案例约0.03美元,质量与独立grep相当但token减少4.5倍;在智能体循环中,不同缩减工具的质量差距缩小了7倍,但弱上下文会导致智能体发出2-4倍的工具调用;跨家族LLM摘要-调试器组合(gpt-5-mini摘要器+Claude Haiku调试器)优于同家族组合,平均提升0.071分。所有数据、代码和可复现基础设施均已公开。
论文日志缩减CI调试LLM根因诊断基准测试GitHub Actions

推荐理由:做CI调试或AI编程智能体的团队终于有了可依赖的日志缩减基准——LogDx-CI直接告诉你哪种工具省钱又有效,建议做DevOps或Agent开发的点开看。
原文
精选全部日报登录