精选理由
CUA-Gym用三个AI智能体自动生成训练数据,省去人工标注。它克隆了94个常用软件,训练出的模型追平了Claude Sonnet 4.6,小模型3B参数达到17B效果,还完全开源。
CUA-Gym是一个端到端流水线,通过三个协调编码智能体自动生成可验证的计算机使用任务。它构建了94个流行应用的模拟版本,包括Slack、Notion、Salesforce和Gmail克隆,并直接读取状态设计奖励函数。生成的训练数据集包含32,112个验证元组,覆盖110个环境。基于该数据训练的模型在OSWorld-Verified基准上达到72.6%,与Claude Sonnet 4.6持平。一个3B参数的小模型以十分之一参数匹配了17B基座模型的性能。
AI 翻译 · 中文
CUA-Gym是一个端到端流水线,通过三个协调编码智能体自动生成可验证的计算机使用任务。它构建了94个流行应用的模拟版本,包括Slack、Notion、Salesforce和Gmail克隆,并直接读取状态设计奖励函数。生成的训练数据集包含32,112个验证元组,覆盖110个环境。基于该数据训练的模型在OSWorld-Verified基准上达到72.6%,与Claude Sonnet 4.6持平。一个3B参数的小模型以十分之一参数匹配了17B基座模型的性能。
The biggest bottleneck for computer-use agents just got automated away. Reinforcement learning broke open math and coding. But for agents clicking around real software, progress stalled. The bottleneck was generating …