12:34arXiv: OpenAI@Haoran Yu, Lifei Liu, Xiaochong Jiang, Yuwen Jia, Su Wang, Pin Qian, Yihang Chen一项基于AIDev数据集的长达七个月的纵向分析(400名重复审查者,共11,429条审查记录)发现,审查者对AI生成代码的批准率从30.1%上升至36.8%(Wilcoxon符号秩检验p<10^{-6})。随经验增加,批准率累计差距达14.5个百分点。与此同时,行内评论量下降22%(p=0.0014),但审查延迟增加3.5倍。这种模式提示审查者可能因工作负荷而产生习惯性麻木,而非理性信任调整。论文GitHub CopilotDevinOpenAI CodexCursor代码审查智能体2 个信源在谈推荐理由:这篇论文用真实数据告诉你,人类审查AI代码时会越来越松懈——批准率涨了,评论却少了。做AI代码审核的团队应该看看。原文
13:55arXiv cs.AI@Mahmoud Abujadallah, Ali Arabat, Mohammed Sayagh一项基于AIDev数据集的研究发现,Copilot、Devin、Cursor和Claude等AI编程助手生成的代码修复PR中,46.41%被开发者拒绝。研究者对306个未合并PR进行定性和定量分析,归纳出14个拒绝原因,分为四类:实现不正确(如不完整、错误方法)、未通过CI测试、代理无法完成实现(如未生成代码、会话丢失)、以及优先级低。研究建议,应通过提供修复方法提示、明确约束限制、指导CI验证流程来提升AI代理的有效性,并强调任务优先级管理以减少资源浪费。论文AI编程助手代码修复PR拒绝CopilotDevin7 个信源在谈推荐理由:AI编程助手生成的代码修复近一半被拒,浪费大量人力审查和计算资源——做AI辅助开发的团队和工具开发者,建议看看这14个失败原因,能帮你避免踩坑。原文