AI编程助手46%的PR被拒:AIDev数据集揭示失败模式

Understanding the Rejection of Fixes Generated by Agentic Pull Requests -- Insights from the AIDev Dataset

精选理由

AI编程助手生成的代码修复近一半被拒,浪费大量人力审查和计算资源——做AI辅助开发的团队和工具开发者,建议看看这14个失败原因,能帮你避免踩坑。

AI 摘要

一项基于AIDev数据集的研究发现,Copilot、Devin、Cursor和Claude等AI编程助手生成的代码修复PR中,46.41%被开发者拒绝。研究者对306个未合并PR进行定性和定量分析,归纳出14个拒绝原因,分为四类:实现不正确(如不完整、错误方法)、未通过CI测试、代理无法完成实现(如未生成代码、会话丢失)、以及优先级低。研究建议,应通过提供修复方法提示、明确约束限制、指导CI验证流程来提升AI代理的有效性,并强调任务优先级管理以减少资源浪费。

AI 翻译 · 中文

一项基于AIDev数据集的研究发现,Copilot、Devin、Cursor和Claude等AI编程助手生成的代码修复PR中,46.41%被开发者拒绝。研究者对306个未合并PR进行定性和定量分析,归纳出14个拒绝原因,分为四类:实现不正确(如不完整、错误方法)、未通过CI测试、代理无法完成实现(如未生成代码、会话丢失)、以及优先级低。研究建议,应通过提供修复方法提示、明确约束限制、指导CI验证流程来提升AI代理的有效性,并强调任务优先级管理以减少资源浪费。

arXiv cs.AIAI coding agents are increasingly used to generate pull requests (PRs) that propose code fixes in software projects. From a first exploration of the AIDev dataset, we find that 46.41\% of the fixes proposed by the agents