selfplay·general

self-play

别名
首次出现
2026-05-22
最近出现
2026-06-13
累计提及
11
§ 01综述

自我对弈(Self-Play)是一种强化学习范式,智能体通过与自身副本或历史版本交互来生成训练数据,从而持续提升能力。该技术最早在游戏领域取得突破,近期正向代码生成、数学推理等实际应用扩展。

近期主要进展

  • Meta/CMU 提出 Self-Play SWE-RL:该方法通过让编码智能体利用自身生成的软件工程经验(如代码修复、测试生成)进行强化学习,提升了在真实缺陷修复任务中的性能,展示了自我对弈在复杂编程场景下的有效性。(Meta/CMU 提出 Self-Play SWE-RL:编码智能体通过自我制造软件经验提升性能
  • OpenAI Dota 2 自我对弈:OpenAI 通过大规模自我对弈训练,其 Dota 2 智能体在 1v1 和 5v5 模式中达到了超人类水平,并击败了职业选手。该工作证明了自我对弈在动态、部分可观环境中的潜力。(OpenAI Dota 2:自我对弈实现超人类表现OpenAI Dota 2机器人击败职业选手
  • 竞争性自我对弈用于物理技能学习:OpenAI 提出了一种竞争性自我对弈框架,其中两个智能体分别作为“反派”和“英雄”在物理模拟中相互竞争,从而习得复杂的物理操作技能,如堆积木和工具使用。(竞争性自我对弈:AI自学物理技能
  • VHG:验证器增强的数学难题自动生成:该工作利用自我对弈思想,通过让生成器与验证器相互博弈自动产生高难度数学问题,缓解了训练数据稀缺问题,为推理模型提供了更丰富的训练素材。(VHG:验证器增强的数学难题自动生成框架
  • 当前焦点 / 未来观察点

    当前自我对弈正从游戏走向更广泛的现实应用,焦点集中在如何有效设计奖励函数和探索策略以避免模式崩溃,以及如何平衡自我生成数据的质量与多样性。未来观察点包括:自我对弈在多智能体协作场景中的应用;如何结合人类反馈进一步引导学习;以及其在开放式任务(如科学发现)中的潜力。

    § 02相关报道06 条在档
    1. 01
      YC Paper Club 探讨自博弈、AI生物学与形式验证
      Y Combinator
    2. 02
      Meta/CMU 提出 Self-Play SWE-RL:编码智能体通过自我制造软件经验提升性能
      rohanpaul_ai
    3. 03
      OpenAI Dota 2:自我对弈实现超人类表现
      OpenAI Blog
    4. 04
      OpenAI Dota 2机器人击败职业选手
      OpenAI Blog
    5. 05
      竞争性自我对弈:AI自学物理技能
      OpenAI Blog
    6. 06
      VHG:验证器增强的数学难题自动生成框架
      arXiv cs.AI
    § 03邻近话题

    本页综述由 AITOP 基于公开报道整理。原报道版权归各自来源所有。

    /topic/self-play