07:03GitHub@github精选GitHub 在 SWE-bench Verified、SWE-bench Pro、SkillsBench、TerminalBench、Win-Hill 五个基准上对 Copilot agentic harness 进行了对比测试。固定模型和任务后,任务解决率与模型原生 harness 持平。在大多数配置下 token 消耗更少,最高可省 30%。Copilot 支持超过 20 个模型,用户可针对任务自由切换效率或质量。AI产品GitHubCopilotSWE-bench编程助手智能体推荐理由:GitHub 实测了 Copilot 智能体框架,五个基准上不输原生,还省 token,支持 20 多种模型,值得试试。原文
03:57Stanford AI Lab@StanfordAILab精选斯坦福AI实验室提出DeLM(Decentralized Language Models),这是一种无需中央协调器的多Agent协作框架。在SWE-bench Verified基准上,使用Gemini-3 Flash的DeLM实现了约10%的性能提升,同时推理成本降低超过一半。该方法在编程和多文档问答等Agent任务中表现出更高的准确性和经济性。AI模型DeLMGemini-3 FlashSWE-bench智能体斯坦福推荐理由:斯坦福搞了个新方法DeLM,不用中央协调器调度Agent,编程和多文档问答更准更便宜,SWE-bench提升10%成本减半,值得试试。原文
13:20Cognition@cognition_labsCognition 宣布 AI Productivity Guarantee,承诺如果 Devin 在 30 天内未能提升工程效率,客户可获最高 1000 万美元退款。该保证基于 Devin 在 SWE-bench 上的表现和内部基准测试,覆盖代码生成、调试和部署等任务。Ryan Bai 详细解释了计算方法和验证流程,旨在降低企业采用风险。行业DevinCognitionAI生产力编程助手SWE-bench推荐理由:Devin 敢赌 1000 万保效率原文
11:56arXiv cs.LG@Mengyu Zheng, Kai Han, Boxun Li, Haiyang Xu, Yuchuan Tian, Wei He, Hang Zhou, Jianyuan Guo, Hailin Hu, Lin Ma, Chao Xu, Guohao Dai, Lixue Xia, Yunchao Wei, Yunhe Wang, Yu Wang精选通用智能体(如OpenClaw)在编程任务上的表现难以用现有SWE-bench准确衡量,因为其不满足Docker工作区、补丁和预测合约要求。为此,研究者推出了Claw-SWE-Bench,一个多语言基准测试和适配器协议,能在固定提示、预算、工作区等公平条件下比较不同智能体框架。该基准包含350个GitHub问题实例,覆盖8种语言和43个仓库,并提供了80实例的轻量版Lite用于快速验证。实验显示,OpenClaw在直接适配器下仅得19.1% Pass@1,而完整适配器可达73.4%,表明适配器设计对编程任务至关重要。该基准将框架和成本作为评估核心维度,数据已开源。论文基准测试编程智能体OpenClawSWE-bench适配器1 个信源在谈推荐理由:做智能体编程评估的团队终于有了公平比较的基准——Claw-SWE-Bench解决了不同框架无法直接对比的痛点,建议做Agent评估的开发者直接用它来测试自己的适配器设计。原文
11:45arXiv cs.AI@Dun Li, Jiatao Li, Hongzhi Li精选这篇论文提出了 MetaAI 递归自设计的操作化证据框架,包含四个标准:可检查的目标系统、元级修改器、反馈导向选择和递归延续。作者将 DGM、STOP、Goedel Agent 和 ShinkaEvolve 等公开系统映射到该框架上,其中 DGM 提供了最直接的证据:经过 80 次迭代,SWE-bench Verified 从 20% 提升到 50%,Polyglot 从 14.2% 提升到 30.7%。消融实验表明开放探索和自我改进都有贡献。论文还提供了 MetaAI-Mini,一个基于 HumanEval 的可复现协议和代码库,但目前尚未包含完整模型运行结果。这项工作为 AI 自我改进提供了系统化的评估方法。论文递归自设计MetaAIDGMSWE-bench可复现性推荐理由:做 AI 自我改进研究的团队终于有了可对照的评估框架——DGM 的 80 轮迭代提升数据值得参考,建议用 MetaAI-Mini 协议复现验证。原文
09:31shao__meng@shao__meng精选76°一篇大规模实证研究评估了仓库级上下文文件(如 AGENTS.md、CLAUDE.md)对编码 Agent 任务完成率的影响。实验覆盖 SWE-bench Lite 和新建 AGENTBENCH 两个基准,测试了 Claude Code、Codex、Qwen Code 等四种 Agent。结果显示,LLM 自动生成的 context file 在多数设置下导致成功率下降(平均 -0.5% 至 -2%),开发者手写的仅提升 +4%,但步数和成本增加 20% 以上。轨迹分析表明 Agent 会过度执行 context file 中的建议性流程,增加复杂度却未提升成功率。当仓库文档齐全时,context file 与现有文档高度冗余,反而可能有害。技巧Coding AgentAGENTS.md上下文文件SWE-bench实证研究推荐理由:这篇论文戳破了 AGENTS.md 的神话——自动生成不仅没用还更贵,手写提升也有限。做 Coding Agent 工具或维护大型仓库的团队,看完会重新评估是否值得投入 context file。原文
09:25arXiv cs.AI@Chuan Xiao, Zhengbo Jiao, Shaobo Wang, Wei Wang, Bing Zhao, Hu Wei, Linfeng Zhang, Lin Qu72°Socratic-SWE 是一种新型闭环自我进化框架,它利用 LLM 驱动的软件工程智能体的历史解决追踪来生成训练信号。与传统的固定突变或漏洞注入方法不同,该框架将追踪提炼为结构化技能,总结重复失败和有效修复模式,并指导生成针对性的修复任务。通过执行验证和求解器梯度对齐奖励筛选任务,Socratic-SWE 在 SWE-bench Verified 等基准测试上经过三次迭代达到 50.40% 的准确率,持续超越同等计算预算下的自我进化基线。这表明解决追踪可作为可扩展的自我进化基础,为提升编程智能体能力提供了新路径。论文智能体编程助手自我进化SWE-benchLLM推荐理由:Socratic-SWE 解决了智能体训练数据依赖人工标注的瓶颈,做 AI 编程或智能体开发的团队可以直接借鉴其闭环进化思路,提升模型在真实仓库中的修复能力。原文
22:17rohanpaul_ai@rohanpaul_ai精选72°一篇新论文指出,AI智能体的真实行为更多来自其外围的“控制层”(harness),而非模型本身或提示词。该控制层负责规划、工具调用、记忆、重试、验证和停止等逻辑,而许多智能体将这一层隐藏在代码中,导致问题难以调试。论文提出“自然语言智能体控制层”概念,用结构化自然语言表达这些逻辑,使其可检查、可移植、可测试。在SWE-bench上的实验表明,增加控制层结构会显著改变智能体行为,但并非总是带来性能提升。论文智能体控制层自然语言SWE-bench论文推荐理由:这篇论文戳中了AI智能体工程化的核心痛点——控制层设计比模型选择更关键,做智能体框架或复杂任务自动化的开发者值得一读。原文
21:35Anthropic: Engineering(资讯)75°Anthropic 宣布其 Claude 3.5 Sonnet 模型在 SWE-bench Verified 基准测试中取得了 49.7% 的通过率,较此前最佳成绩提升了约 10 个百分点。该测试评估 AI 模型解决真实 GitHub 问题的能力,包括代码修复、功能实现等。Claude 3.5 Sonnet 在多个类别中表现优异,尤其在需要多步推理和上下文理解的复杂任务上。这一进展表明 AI 在软件工程自动化领域正快速接近人类水平。AI模型Claude 3.5 SonnetSWE-bench代码修复基准测试编程助手10 个信源在谈推荐理由:Claude 3.5 Sonnet 在 SWE-bench 上的突破意味着 AI 编程助手离真正解决复杂工程问题更近了一步,做软件开发的团队可以关注这一能力提升对日常代码修复和功能开发的潜在影响。原文