11:56
arXiv cs.LG@Mengyu Zheng, Kai Han, Boxun Li, Haiyang Xu, Yuchuan Tian, Wei He, Hang Zhou, Jianyuan Guo, Hailin Hu, Lin Ma, Chao Xu, Guohao Dai, Lixue Xia, Yunchao Wei, Yunhe Wang, Yu Wang 通用智能体(如OpenClaw)在编程任务上的表现难以用现有SWE-bench准确衡量,因为其不满足Docker工作区、补丁和预测合约要求。为此,研究者推出了Claw-SWE-Bench,一个多语言基准测试和适配器协议,能在固定提示、预算、工作区等公平条件下比较不同智能体框架。该基准包含350个GitHub问题实例,覆盖8种语言和43个仓库,并提供了80实例的轻量版Lite用于快速验证。实验显示,OpenClaw在直接适配器下仅得19.1% Pass@1,而完整适配器可达73.4%,表明适配器设计对编程任务至关重要。该基准将框架和成本作为评估核心维度,数据已开源。
推荐理由:做智能体编程评估的团队终于有了公平比较的基准——Claw-SWE-Bench解决了不同框架无法直接对比的痛点,建议做Agent评估的开发者直接用它来测试自己的适配器设计。