精选理由
想知道编程智能体在真实对话开发中能撑多久吗?SWE-Interact测试了Opus 4.8和GPT 5.5在模糊需求下逐步迭代的能力,结果比单轮任务差一半。
SWE-Interact是一个新测试平台,用于评估编码代理在多轮交互、用户驱动的软件工程任务中的表现。现有SWE基准(如SWE-bench)通常预先提供完整需求,而SWE-Interact通过用户模拟器逐步揭示需求、提供反馈和约束。在单轮任务中,最强模型(如Opus 4.8和GPT 5.5)解决率约50%,但在SWE-Interact多轮任务中仅解决约25%。该基准测量了模型在交互目标发现和迭代细化中的正交能力。
AI 翻译 · 中文
SWE-Interact是一个新测试平台,用于评估编码代理在多轮交互、用户驱动的软件工程任务中的表现。现有SWE基准(如SWE-bench)通常预先提供完整需求,而SWE-Interact通过用户模拟器逐步揭示需求、提供反馈和约束。在单轮任务中,最强模型(如Opus 4.8和GPT 5.5)解决率约50%,但在SWE-Interact多轮任务中仅解决约25%。该基准测量了模型在交互目标发现和迭代细化中的正交能力。
We introduce SWE-Interact, a new testbed for evaluating coding agents on multi-turn, interactive, user-driven software engineering tasks. Existing frontier SWE benchmarks typically provide complete requirements upfront a…
- Ethan Mollick06-29 05:49原文