10:14arXiv cs.AI@Jinbiao Wei, Qianran Ma, Yilun Zhao, Xiao Zhou, Kangqi Ni, Guo Gan, Arman Cohan精选OpenComputer 是一个基于验证器的框架,用于构建可验证的软件世界,以评估和训练计算机使用智能体。它集成了四个组件:应用状态验证器、自进化验证层、任务生成管道和评估工具。目前覆盖 33 个桌面应用和 1000 个任务,包括浏览器、办公工具、创意软件等。实验表明,硬编码验证器比 LLM 作为裁判更准确,尤其在细粒度状态依赖的任务中。前沿模型在端到端完成上仍显吃力,开源模型表现下降,暴露了计算机自动化中的持续差距。论文计算机使用智能体验证框架桌面自动化评估基准开源/仓库推荐理由:OpenComputer 解决了计算机使用智能体评估缺乏可靠验证的问题,做智能体开发和自动化研究的团队可以直接用它来测试和训练模型,比 LLM 裁判更靠谱。原文