AITP
精选全部 AI 动态AI 日报Agent 接入关于更新日志信源提报反馈
登录 / 注册
AITOP
全部 AI 动态
AI 相关资讯全量信息流
全部博客资讯推文论文
全部模型产品行业论文技巧
标签:SWE-bench Verified×
6月19日
11:07
11:07arXiv cs.LG@Asa Shepard, Jeannie Albrecht
论文提出探针-改进调优法,通过合成bug修复探针迭代诊断和修补仓库指导文件,无需代理循环或工具调用。在SWE-bench Verified上,使用Qwen3.5-35B-A3B模型200步,平均解决率33.0%,高于静态知识库的28.3%和无指导基线的25.5%(p<0.001)。改进来自覆盖度而非精确度:优化指导使可评估补丁增加14.5个百分点,但补丁精确度稳定在约59%(p=0.119)。跨模型实验显示,当模型无法生成足够诊断输出时调优效果下降,但补丁精确度仍保持恒定。
论文探针-改进调优SWE-bench VerifiedQwen3.5-35B-A3B编码智能体仓库指导文件

推荐理由:这篇论文告诉你:给编码智能体写AGENTS.md时,别一次性写好就完,得用探针-改进法迭代修。实测在SWE-bench上解决率涨了近5个点,主要是能让智能体多搞定14.5%的实例。
原文
6月16日
20:46
AITOP6月16日 20:46
600亿美元买下Cursor,xAI终于拿到了编程工具,但真正值得跟踪的或许不是AI600亿美元买下Cursor,xAI终于拿到了编程工具,但真正值得跟踪的或许不是AI
6月12日
12:57
AITOP6月12日 12:57
Claude代码里藏了个20260612,18个月后的AI记忆革命已经开始倒计时
6月11日
15:28
AITOP6月11日 15:28
1107 vs 303:谷歌悄悄开源了一个“拆打字机”的模型,把大模型速度翻了4倍
15:23
AITOP6月11日 15:23
DiffusionGemma颠覆文本生成?自回归模型的“统治”要结束了
15:07
AITOP6月11日 15:07
每秒1107个token,Google开源的扩散模型为什么能改变本地推理格局?
精选全部日报登录