MacAgentBench：在真实macOS桌面上评估AI智能体的基准

精选理由

这篇论文发布了MacAgentBench，一个包含676个macOS桌面任务的智能体基准。它用细粒度评分发现Claude Opus 4.6配合OpenClaw能拿到73.7%的正确率，而且不同模型表面分一样但实际完成能力差很多，值得研究智能体的去看。

AI 摘要

MacAgentBench新基准包含676个任务覆盖25个macOS应用，近60%任务需要同时操作GUI和命令行。采用确定性规则评估并引入细粒度多检查点评分。实验在3个框架和16个模型上进行，最优配置Claude Opus 4.6 on OpenClaw达到73.7% Pass@1，优势主要来自技能库而非框架设计。细粒度指标显示相同Pass@1的模型在子目标完成上差异显著。

AI 翻译 · 中文

arXiv cs.AIComputer use agents (CUAs) have advanced rapidly in desktop automation, and a growing number of users deploy CUAs such as OpenClaw on Mac Mini for always-on automation. However, existing benchmarks, including those for m…

IT之家06-23 08:37原文
Geek06-20 02:35原文
Nous Research06-22 18:06原文

阅读原文