swebench·general

SWE-bench

别名
首次出现
2026-05-22
最近出现
2026-06-11
累计提及
50
§ 01综述

SWE-bench 是评估代码模型能否自动修复真实软件 bug 的基准,近期围绕它出现了多个新基准、训练框架与应用进展。

  • Datacurve 发布 DeepSWE 基准:包含 113 个来自 5 种编程语言的任务,难度更高、更贴近真实开发。在测试中,Claude Opus 准确率比 Claude Code 高 10 个百分点,表明不同模型间仍存在明显差距。Datacurve 发布 DeepSWE:更难、更真实的编程基准测试
  • NVIDIA 开源 Polar 框架:引入 token 忠实的 rollout 机制,支持在 Codex、Claude Code 和 Qwen Code 上应用 GRPO 强化学习训练。在 Codex 上训练后,SWE-bench Verified 得分从 11.4% 飙升至 67.8%,提升达 594%。NVIDIA 发布 Polar:跨 Codex、Claude Code 和 Qwen Code 的 GRPO 训练框架
  • Meta/CMU 提出 Self-Play SWE-RL:让编码智能体通过尝试复现失败用例、自我制造软件经验进行强化学习,从而提升 SWE-bench 成绩,无需人工标注修复数据。Meta/CMU 提出 Self-Play SWE-RL:编码智能体通过自我制造软件经验提升性能
  • Meta 发布复用尝试摘要方法:在推理时将以往错误尝试的关键信息摘要注入上下文,使 SWE-bench 结果进一步提升,核心思路是让模型从历史尝试中学习。Meta 论文:编码智能体通过复用尝试摘要大幅提升性能
  • 当前焦点:SWE-bench 已成为代码智能体评估的事实标准,但新基准(如 DeepSWE)正试图弥补其语言覆盖和真实性不足。观察重点:Polar 框架能否成为开源社区强化代码模型的通用管线,以及 Self-Play SWE-RL 等自改进方法能否在不需要人类标注情况下持续提升模型表现。

    § 02相关报道10 条在档
    1. 01
      Claw-SWE-Bench:评估OpenClaw风格智能体编程能力的基准
      arXiv cs.LG
    2. 02
      MetaAI 递归自设计:从 0 到 1 再到 N 的可复现工程证据
      arXiv cs.AI
    3. 03
      AGENTS.md 对 Coding Agents 效果微弱,成本显著上升
      shao__meng
    4. 04
      Socratic-SWE:通过历史追踪自我进化的编程智能体
      arXiv cs.AI
    5. 05
      ZenMux 免费体验 Claude Opus 4.8,一次生成高细节波音 747
      berryxia
    6. 06
      Claude Opus 4.8 发布:可靠性提升,编码与Agent任务更强
      shao__meng
    7. 07
      英伟达开源 Polar 框架,Codex 跑分暴涨 594.74%
      IT之家
    8. 08
      Datacurve 发布 DeepSWE:更难、更真实的编程基准测试
      rohanpaul_ai
    9. 09
      CCO:用校准保守主义实现可扩展的AI监督
      arXiv cs.AI
    10. 10
      NVIDIA 发布 Polar:跨 Codex、Claude Code 和 Qwen Code 的 GRPO 训练框架
      marktechpost
    § 03邻近话题

    本页综述由 AITOP 基于公开报道整理。原报道版权归各自来源所有。

    /topic/SWE-bench