AI模型精选

CUA-Gym自动化生成训练数据,计算机使用智能体匹配Claude Sonnet 4.6

The biggest bottleneck for computer-use agents jus…

精选理由

CUA-Gym用三个AI智能体自动生成训练数据,省去人工标注。它克隆了94个常用软件,训练出的模型追平了Claude Sonnet 4.6,小模型3B参数达到17B效果,还完全开源。

AI 摘要

CUA-Gym是一个端到端流水线,通过三个协调编码智能体自动生成可验证的计算机使用任务。它构建了94个流行应用的模拟版本,包括Slack、Notion、Salesforce和Gmail克隆,并直接读取状态设计奖励函数。生成的训练数据集包含32,112个验证元组,覆盖110个环境。基于该数据训练的模型在OSWorld-Verified基准上达到72.6%,与Claude Sonnet 4.6持平。一个3B参数的小模型以十分之一参数匹配了17B基座模型的性能。

AI 翻译 · 中文

CUA-Gym是一个端到端流水线,通过三个协调编码智能体自动生成可验证的计算机使用任务。它构建了94个流行应用的模拟版本,包括Slack、Notion、Salesforce和Gmail克隆,并直接读取状态设计奖励函数。生成的训练数据集包含32,112个验证元组,覆盖110个环境。基于该数据训练的模型在OSWorld-Verified基准上达到72.6%,与Claude Sonnet 4.6持平。一个3B参数的小模型以十分之一参数匹配了17B基座模型的性能。

AlphaSignalThe biggest bottleneck for computer-use agents just got automated away. Reinforcement learning broke open math and coding. But for agents clicking around real software, progress stalled. The bottleneck was generating