SWE-bench

§ 01综述

SWE-bench 是评估代码模型能否自动修复真实软件 bug 的基准，近期围绕它出现了多个新基准、训练框架与应用进展。

Datacurve 发布 DeepSWE 基准：包含 113 个来自 5 种编程语言的任务，难度更高、更贴近真实开发。在测试中，Claude Opus 准确率比 Claude Code 高 10 个百分点，表明不同模型间仍存在明显差距。Datacurve 发布 DeepSWE：更难、更真实的编程基准测试

NVIDIA 开源 Polar 框架：引入 token 忠实的 rollout 机制，支持在 Codex、Claude Code 和 Qwen Code 上应用 GRPO 强化学习训练。在 Codex 上训练后，SWE-bench Verified 得分从 11.4% 飙升至 67.8%，提升达 594%。NVIDIA 发布 Polar：跨 Codex、Claude Code 和 Qwen Code 的 GRPO 训练框架

Meta/CMU 提出 Self-Play SWE-RL：让编码智能体通过尝试复现失败用例、自我制造软件经验进行强化学习，从而提升 SWE-bench 成绩，无需人工标注修复数据。Meta/CMU 提出 Self-Play SWE-RL：编码智能体通过自我制造软件经验提升性能

Meta 发布复用尝试摘要方法：在推理时将以往错误尝试的关键信息摘要注入上下文，使 SWE-bench 结果进一步提升，核心思路是让模型从历史尝试中学习。Meta 论文：编码智能体通过复用尝试摘要大幅提升性能

当前焦点：SWE-bench 已成为代码智能体评估的事实标准，但新基准（如 DeepSWE）正试图弥补其语言覆盖和真实性不足。观察重点：Polar 框架能否成为开源社区强化代码模型的通用管线，以及 Self-Play SWE-RL 等自改进方法能否在不需要人类标注情况下持续提升模型表现。

§ 02相关报道10 条在档

§ 03邻近话题