CUA-Gym自动化生成训练数据，计算机使用智能体匹配Claude Sonnet 4.6

精选理由

CUA-Gym用三个AI智能体自动生成训练数据，省去人工标注。它克隆了94个常用软件，训练出的模型追平了Claude Sonnet 4.6，小模型3B参数达到17B效果，还完全开源。

AI 摘要

CUA-Gym是一个端到端流水线，通过三个协调编码智能体自动生成可验证的计算机使用任务。它构建了94个流行应用的模拟版本，包括Slack、Notion、Salesforce和Gmail克隆，并直接读取状态设计奖励函数。生成的训练数据集包含32,112个验证元组，覆盖110个环境。基于该数据训练的模型在OSWorld-Verified基准上达到72.6%，与Claude Sonnet 4.6持平。一个3B参数的小模型以十分之一参数匹配了17B基座模型的性能。

AI 翻译 · 中文

AlphaSignalThe biggest bottleneck for computer-use agents just got automated away. Reinforcement learning broke open math and coding. But for agents clicking around real software, progress stalled. The bottleneck was generating …

arXiv cs.AI06-15 16:00原文
eric zakariasson06-15 17:15原文
elvis06-15 16:11原文
Notion06-15 21:04原文
shao__meng06-18 00:35原文

查看原推