self-play

§ 01综述

自我对弈（Self-Play）是一种强化学习范式，智能体通过与自身副本或历史版本交互来生成训练数据，从而持续提升能力。该技术最早在游戏领域取得突破，近期正向代码生成、数学推理等实际应用扩展。

近期主要进展

Meta/CMU 提出 Self-Play SWE-RL：该方法通过让编码智能体利用自身生成的软件工程经验（如代码修复、测试生成）进行强化学习，提升了在真实缺陷修复任务中的性能，展示了自我对弈在复杂编程场景下的有效性。（Meta/CMU 提出 Self-Play SWE-RL：编码智能体通过自我制造软件经验提升性能）

OpenAI Dota 2 自我对弈：OpenAI 通过大规模自我对弈训练，其 Dota 2 智能体在 1v1 和 5v5 模式中达到了超人类水平，并击败了职业选手。该工作证明了自我对弈在动态、部分可观环境中的潜力。（OpenAI Dota 2：自我对弈实现超人类表现；OpenAI Dota 2机器人击败职业选手）

竞争性自我对弈用于物理技能学习：OpenAI 提出了一种竞争性自我对弈框架，其中两个智能体分别作为“反派”和“英雄”在物理模拟中相互竞争，从而习得复杂的物理操作技能，如堆积木和工具使用。（竞争性自我对弈：AI自学物理技能）

VHG：验证器增强的数学难题自动生成：该工作利用自我对弈思想，通过让生成器与验证器相互博弈自动产生高难度数学问题，缓解了训练数据稀缺问题，为推理模型提供了更丰富的训练素材。（VHG：验证器增强的数学难题自动生成框架）

当前焦点 / 未来观察点

当前自我对弈正从游戏走向更广泛的现实应用，焦点集中在如何有效设计奖励函数和探索策略以避免模式崩溃，以及如何平衡自我生成数据的质量与多样性。未来观察点包括：自我对弈在多智能体协作场景中的应用；如何结合人类反馈进一步引导学习；以及其在开放式任务（如科学发现）中的潜力。

§ 02相关报道06 条在档

§ 03邻近话题