Govern the Repository, Not the Agent: 测量AI原生软件的生态系统级风险

Govern the Repository, Not the Agent: Measuring Ecosystem-Level Risk in AI-Native Software

精选理由

这篇论文用93万条数据告诉你,AI写代码带来的隐患不在单个智能体,而在整个仓库。看完你就明白为什么只测单个AI不够用了。

AI 摘要

一篇来自arXiv的论文研究了AI编程智能体在共享仓库中合并拉取请求带来的集成摩擦问题。通过对超过93万条智能体编写的拉取请求进行测量,发现约一半的摩擦变化归因于仓库本身,而非单个贡献或智能体。智能体贡献的仓库级摩擦是人类的约两倍(组内相关系数0.30 vs 0.16),该差距在控制代码库规模、年龄、任务形态等变量后依然存在。论文提出AI原生软件的风险是生态系统属性,应通过仓库级而非单智能体方式进行评估和治理。

AI 翻译 · 中文

一篇来自arXiv的论文研究了AI编程智能体在共享仓库中合并拉取请求带来的集成摩擦问题。通过对超过93万条智能体编写的拉取请求进行测量,发现约一半的摩擦变化归因于仓库本身,而非单个贡献或智能体。智能体贡献的仓库级摩擦是人类的约两倍(组内相关系数0.30 vs 0.16),该差距在控制代码库规模、年龄、任务形态等变量后依然存在。论文提出AI原生软件的风险是生态系统属性,应通过仓库级而非单智能体方式进行评估和治理。

arXiv cs.AIAutonomous coding agents now open and merge pull requests in shared repositories at scale, and the field evaluates them the way it has always evaluated components, one agent at a time, on isolated benchmark tasks. Yet ag