14:02arXiv: OpenAI@Bowen Qin精选72°CI失败日志通常庞大且嘈杂(中位数5000行,最多20万行),编程智能体依赖上游工具将日志缩减为可管理的上下文,但此前缺乏公开的实证比较。LogDx-CI基准测试比较了11种上下文缩减工具(包括原始、tail、grep、三种RTK模式、两种LLM map-reduce摘要器、三种混合路由器)在35个真实GitHub Actions失败案例上的表现,由3个LLM调试器家族评分。关键发现包括:混合grep+tail路由器在成本和质量上占据帕累托前沿,前两名方法每个案例约0.03美元,质量与独立grep相当但token减少4.5倍;在智能体循环中,不同缩减工具的质量差距缩小了7倍,但弱上下文会导致智能体发出2-4倍的工具调用;跨家族LLM摘要-调试器组合(gpt-5-mini摘要器+Claude Haiku调试器)优于同家族组合,平均提升0.071分。所有数据、代码和可复现基础设施均已公开。论文日志缩减CI调试LLM根因诊断基准测试GitHub Actions推荐理由:做CI调试或AI编程智能体的团队终于有了可依赖的日志缩减基准——LogDx-CI直接告诉你哪种工具省钱又有效,建议做DevOps或Agent开发的点开看。原文
19:12arXiv: Anthropic@Neil Fendley, Zhengyu Liu, Aonan Guan, Jiacheng Zhong, Yinzhi Cao精选85°研究人员设计了首个检测与利用框架JAW,针对GitHub Actions和n8n等自动化平台中的智能体工作流进行劫持攻击。攻击者可通过操控GitHub Issue评论等输入,诱导LLM代理执行凭证泄露、任意命令等恶意操作。JAW通过静态路径可行性分析、动态提示来源分析和运行时能力分析,成功劫持了4714个GitHub工作流和8个n8n模板。受影响组件包括Claude Code、Gemini CLI、Qwen CLI、Cursor CLI等15个广泛使用的GitHub Actions及两个n8n官方节点。研究人员已向GitHub、Google、Anthropic等厂商负责任披露,并获得致谢、修复和漏洞赏金。论文智能体工作流安全/漏洞GitHub Actionsn8nLLM安全10 个信源在谈推荐理由:这是首个系统研究AI工作流安全风险的工作,使用GitHub Actions或n8n的开发者应立刻检查自己的工作流是否暴露在类似攻击下,建议点开了解具体攻击路径和防护建议。原文