论文精选

Claw-SWE-Bench:评估OpenClaw风格智能体编程能力的基准

Claw-SWE-Bench: A Benchmark for Evaluating OpenClaw-style Agent Harnesses on Coding Tasks

精选理由

做智能体编程评估的团队终于有了公平比较的基准——Claw-SWE-Bench解决了不同框架无法直接对比的痛点,建议做Agent评估的开发者直接用它来测试自己的适配器设计。

AI 摘要

通用智能体(如OpenClaw)在编程任务上的表现难以用现有SWE-bench准确衡量,因为其不满足Docker工作区、补丁和预测合约要求。为此,研究者推出了Claw-SWE-Bench,一个多语言基准测试和适配器协议,能在固定提示、预算、工作区等公平条件下比较不同智能体框架。该基准包含350个GitHub问题实例,覆盖8种语言和43个仓库,并提供了80实例的轻量版Lite用于快速验证。实验显示,OpenClaw在直接适配器下仅得19.1% Pass@1,而完整适配器可达73.4%,表明适配器设计对编程任务至关重要。该基准将框架和成本作为评估核心维度,数据已开源。

AI 翻译 · 中文

通用智能体(如OpenClaw)在编程任务上的表现难以用现有SWE-bench准确衡量,因为其不满足Docker工作区、补丁和预测合约要求。为此,研究者推出了Claw-SWE-Bench,一个多语言基准测试和适配器协议,能在固定提示、预算、工作区等公平条件下比较不同智能体框架。该基准包含350个GitHub问题实例,覆盖8种语言和43个仓库,并提供了80实例的轻量版Lite用于快速验证。实验显示,OpenClaw在直接适配器下仅得19.1% Pass@1,而完整适配器可达73.4%,表明适配器设计对编程任务至关重要。该基准将框架和成本作为评估核心维度,数据已开源。

arXiv cs.LGGeneral-purpose agents such as OpenClaw are increasingly used as autonomous tool users, but their coding ability is difficult to measure under SWE-bench: a generic agent does not by itself satisfy the clean Docker worksp