15:14arXiv cs.LG@Mohit Raghavendra, Anisha Gunjal, Aakash Sabharwal, Yunzhong HeSWE-Interact是一个新测试平台,用于评估编码代理在多轮交互、用户驱动的软件工程任务中的表现。现有SWE基准(如SWE-bench)通常预先提供完整需求,而SWE-Interact通过用户模拟器逐步揭示需求、提供反馈和约束。在单轮任务中,最强模型(如Opus 4.8和GPT 5.5)解决率约50%,但在SWE-Interact多轮任务中仅解决约25%。该基准测量了模型在交互目标发现和迭代细化中的正交能力。论文SWE-InteractOpus 4.8GPT 5.5编程助手智能体1 个信源在谈推荐理由:想知道编程智能体在真实对话开发中能撑多久吗?SWE-Interact测试了Opus 4.8和GPT 5.5在模糊需求下逐步迭代的能力,结果比单轮任务差一半。原文