11:07arXiv cs.LG@Asa Shepard, Jeannie Albrecht论文提出探针-改进调优法,通过合成bug修复探针迭代诊断和修补仓库指导文件,无需代理循环或工具调用。在SWE-bench Verified上,使用Qwen3.5-35B-A3B模型200步,平均解决率33.0%,高于静态知识库的28.3%和无指导基线的25.5%(p<0.001)。改进来自覆盖度而非精确度:优化指导使可评估补丁增加14.5个百分点,但补丁精确度稳定在约59%(p=0.119)。跨模型实验显示,当模型无法生成足够诊断输出时调优效果下降,但补丁精确度仍保持恒定。论文探针-改进调优SWE-bench VerifiedQwen3.5-35B-A3B编码智能体仓库指导文件推荐理由:这篇论文告诉你:给编码智能体写AGENTS.md时,别一次性写好就完,得用探针-改进法迭代修。实测在SWE-bench上解决率涨了近5个点,主要是能让智能体多搞定14.5%的实例。原文