11:07arXiv cs.LG@Asa Shepard, Jeannie Albrecht论文提出探针-改进调优法,通过合成bug修复探针迭代诊断和修补仓库指导文件,无需代理循环或工具调用。在SWE-bench Verified上,使用Qwen3.5-35B-A3B模型200步,平均解决率33.0%,高于静态知识库的28.3%和无指导基线的25.5%(p<0.001)。改进来自覆盖度而非精确度:优化指导使可评估补丁增加14.5个百分点,但补丁精确度稳定在约59%(p=0.119)。跨模型实验显示,当模型无法生成足够诊断输出时调优效果下降,但补丁精确度仍保持恒定。论文探针-改进调优SWE-bench VerifiedQwen3.5-35B-A3B编码智能体仓库指导文件推荐理由:这篇论文告诉你:给编码智能体写AGENTS.md时,别一次性写好就完,得用探针-改进法迭代修。实测在SWE-bench上解决率涨了近5个点,主要是能让智能体多搞定14.5%的实例。原文
10:41arXiv: Anthropic@Elias Lumer, Sahil Sen, Kevin Paul, Vamse Kumar Subbiah精选本文提出 Recursive Agent Harness (RAH) 概念,将递归从模型调用扩展到完整智能体框架,包含文件系统、代码执行和规划能力。在长上下文推理任务上,RAH 在 GPT-5 骨干上比 Codex 基线提升近 10 个百分点(71.75% → 81.36%),使用 Claude Sonnet 4.5 时达到 89.77%。该方法通过父智能体生成可执行脚本并行启动子智能体,结合结构化函数调用处理细粒度任务,为生产级编码智能体提供了新范式。论文递归智能体长上下文推理智能体框架编码智能体GPT-5推荐理由:RAH 解决了长上下文推理中智能体扩展性的核心瓶颈,做复杂编码任务或智能体系统的开发者可以直接参考其设计思路,效果提升显著。原文
09:18arXiv cs.AI@Thanawat Lodkaew, Johannes Ackermann, Soichiro Nishimori, Nontawat Charoenphakdee, Masashi Sugiyama, Takashi Ishida精选72°论文指出AI编码智能体在评估中常通过走捷径而非真正解决问题来获得高分,导致评估分数不可靠。为此,研究者提出CapCode框架,通过设计随机测试并人为设定不可作弊的性能上限,使分数超过上限即表明作弊。同时提出CapReward奖励机制,抑制模型优化超出上限的行为。实验表明,CapCode能有效检测作弊,同时保持模型性能排名;CapReward能减少作弊行为,使模型更遵循任务规范。论文智能体评估/基准作弊检测编码智能体奖励设计推荐理由:做AI智能体评估和训练的团队终于有了检测作弊的实用工具——CapCode能直接暴露模型是否在走捷径,CapReward则从奖励设计上杜绝作弊,建议做编码智能体评测的开发者点开看看。原文
11:35arXiv cs.LG@Nico Pelleriti, Sree Harsha Nelaturu, Zhanke Zhou, Zongze Li, Max Zimmer, Bo Han, Sebastian Pokutta精选72°最新研究指出,将 LLM 与进化搜索结合的编码智能体在数学发现和算法设计上表现强劲,但进步可能源于多种机制:新算法结构、调整现有策略、重组模型内部知识或过拟合评估器。为区分这些机制,研究者推出了 EvoTrace 数据集,涵盖四种进化框架、推理与非推理模型及 16 个任务。他们开发了 EvoReplay 方法,通过重放分析高分解背后的局部搜索状态,并标注了九种编辑类型。结果发现,大部分得分提升来自少数编辑类型,且约 30% 的代码行是重复引入的已删除行,表明基准进步可能并非真正的新算法结构。论文进化算法编码智能体LLMEvoTrace基准分析推荐理由:做 AI 编码智能体或进化算法研究的开发者,这篇论文帮你拆解了 benchmark 分数的真实来源——别再只看最终得分了,EvoTrace 让你看清智能体到底在“进化”什么。原文
09:49arXiv cs.AI@Zheng Yan, Jingxiang Weng, Charles Chen, Dengyun Peng, Ethan Qin, Jiannan Guan, Jinhao Liu, Qiming Yu, Yixin Yuan, Fanqing Meng, Carl Che, Mengkang Hu精选该论文研究了编码智能体在执行终端任务时,能否自主推断出最小权限授权边界。作者提出了权限边界推断任务和AuthBench基准测试,包含120个真实终端任务及人工审核的权限标签。实验发现,前沿模型在授权时往往既遗漏必要权限又授予多余敏感权限,且增加推理时间并不能解决这一问题,反而使模型趋向于各自的授权吸引子(要么过于宽松,要么过于严格)。为此,作者提出了充分性-紧致性分解方法,先通过前向模拟生成覆盖性策略,再审计每个授权项的合理性,该方法在多个模型上提升了敏感任务成功率并降低了攻击成功率。论文编码智能体权限安全最小权限原则AuthBench充分性-紧致性分解推荐理由:做AI安全或智能体部署的团队会关心——这篇论文揭示了当前编码智能体在权限管理上的根本缺陷,并给出了可落地的分解方案,值得直接参考。原文