MacAgentBench:在真实macOS桌面上评估AI智能体的基准

MacAgentBench: Benchmarking AI Agents on Real-World macOS Desktop

精选理由

这篇论文发布了MacAgentBench,一个包含676个macOS桌面任务的智能体基准。它用细粒度评分发现Claude Opus 4.6配合OpenClaw能拿到73.7%的正确率,而且不同模型表面分一样但实际完成能力差很多,值得研究智能体的去看。

AI 摘要

MacAgentBench新基准包含676个任务覆盖25个macOS应用,近60%任务需要同时操作GUI和命令行。采用确定性规则评估并引入细粒度多检查点评分。实验在3个框架和16个模型上进行,最优配置Claude Opus 4.6 on OpenClaw达到73.7% Pass@1,优势主要来自技能库而非框架设计。细粒度指标显示相同Pass@1的模型在子目标完成上差异显著。

AI 翻译 · 中文

MacAgentBench新基准包含676个任务覆盖25个macOS应用,近60%任务需要同时操作GUI和命令行。采用确定性规则评估并引入细粒度多检查点评分。实验在3个框架和16个模型上进行,最优配置Claude Opus 4.6 on OpenClaw达到73.7% Pass@1,优势主要来自技能库而非框架设计。细粒度指标显示相同Pass@1的模型在子目标完成上差异显著。

arXiv cs.AIComputer use agents (CUAs) have advanced rapidly in desktop automation, and a growing number of users deploy CUAs such as OpenClaw on Mac Mini for always-on automation. However, existing benchmarks, including those for m