SWE-Interact：重新定义SWE基准为用户驱动的长程编码会话

精选理由

想知道编程智能体在真实对话开发中能撑多久吗？SWE-Interact测试了Opus 4.8和GPT 5.5在模糊需求下逐步迭代的能力，结果比单轮任务差一半。

AI 摘要

SWE-Interact是一个新测试平台，用于评估编码代理在多轮交互、用户驱动的软件工程任务中的表现。现有SWE基准（如SWE-bench）通常预先提供完整需求，而SWE-Interact通过用户模拟器逐步揭示需求、提供反馈和约束。在单轮任务中，最强模型（如Opus 4.8和GPT 5.5）解决率约50%，但在SWE-Interact多轮任务中仅解决约25%。该基准测量了模型在交互目标发现和迭代细化中的正交能力。

AI 翻译 · 中文

arXiv cs.LGWe introduce SWE-Interact, a new testbed for evaluating coding agents on multi-turn, interactive, user-driven software engineering tasks. Existing frontier SWE benchmarks typically provide complete requirements upfront a…

Ethan Mollick06-29 05:49原文

阅读原文