SWE-bench 是评估代码模型能否自动修复真实软件 bug 的基准,近期围绕它出现了多个新基准、训练框架与应用进展。
当前焦点:SWE-bench 已成为代码智能体评估的事实标准,但新基准(如 DeepSWE)正试图弥补其语言覆盖和真实性不足。观察重点:Polar 框架能否成为开源社区强化代码模型的通用管线,以及 Self-Play SWE-RL 等自改进方法能否在不需要人类标注情况下持续提升模型表现。
SWE-bench 是评估代码模型能否自动修复真实软件 bug 的基准,近期围绕它出现了多个新基准、训练框架与应用进展。
当前焦点:SWE-bench 已成为代码智能体评估的事实标准,但新基准(如 DeepSWE)正试图弥补其语言覆盖和真实性不足。观察重点:Polar 框架能否成为开源社区强化代码模型的通用管线,以及 Self-Play SWE-RL 等自改进方法能否在不需要人类标注情况下持续提升模型表现。