Self-Play SWE-RL 解决了编码智能体依赖人类标注数据的瓶颈,做 AI 编程助手或智能体训练的团队值得关注——它展示了智能体自我进化的新路径,看完会对训练数据来源有全新认识。
Meta、CMU 等机构发表新论文,提出 Self-Play SWE-RL 方法,让编码智能体通过自我制造和修复真实项目中的 bug 来训练自己,不再依赖人类编写的任务数据。该方法将学习单元从标注任务转变为可执行场景:一个模型版本在真实代码库中弱化测试、注入有意义的 bug 并留下测试工件,另一个版本则通过恢复测试行为来修复系统。在 SWE-bench Verified 上取得 +10.4 分、SWE-bench Pro 上 +7.8 分的提升,且评估仍使用自然语言问题,表明模型学到了比问题措辞更深层的东西。论文指出,编码智能体的下一个瓶颈可能不再是更多人类编写的任务,而是让智能体遭遇、创造、承受并从失败中学习的更多方式。
Meta、CMU 等机构发表新论文,提出 Self-Play SWE-RL 方法,让编码智能体通过自我制造和修复真实项目中的 bug 来训练自己,不再依赖人类编写的任务数据。该方法将学习单元从标注任务转变为可执行场景:一个模型版本在真实代码库中弱化测试、注入有意义的 bug 并留下测试工件,另一个版本则通过恢复测试行为来修复系统。在 SWE-bench Verified 上取得 +10.4 分、SWE-bench Pro 上 +7.8 分的提升,且评估仍使用自然语言问题,表明模型学到了比问题措辞更深层的东西。论文指出,编码智能体的下一个瓶颈可能不再是更多人类编写的任务,而是让智能体遭遇、创造、承受并从失败中学习的更多方式。
Brilliant new paper from Meta, CMU and other labs. Shows that coding agents improve faster by manufacturing their own software experience. Coding agents can train themselves by making and fixing bugs inside real projects…