Claw-SWE-Bench：评估OpenClaw风格智能体编程能力的基准

精选理由

做智能体编程评估的团队终于有了公平比较的基准——Claw-SWE-Bench解决了不同框架无法直接对比的痛点，建议做Agent评估的开发者直接用它来测试自己的适配器设计。

AI 摘要

通用智能体（如OpenClaw）在编程任务上的表现难以用现有SWE-bench准确衡量，因为其不满足Docker工作区、补丁和预测合约要求。为此，研究者推出了Claw-SWE-Bench，一个多语言基准测试和适配器协议，能在固定提示、预算、工作区等公平条件下比较不同智能体框架。该基准包含350个GitHub问题实例，覆盖8种语言和43个仓库，并提供了80实例的轻量版Lite用于快速验证。实验显示，OpenClaw在直接适配器下仅得19.1% Pass@1，而完整适配器可达73.4%，表明适配器设计对编程任务至关重要。该基准将框架和成本作为评估核心维度，数据已开源。

AI 翻译 · 中文

arXiv cs.LGGeneral-purpose agents such as OpenClaw are increasingly used as autonomous tool users, but their coding ability is difficult to measure under SWE-bench: a generic agent does not by itself satisfy the clean Docker worksp…

Viking06-11 01:00原文

阅读原文