12:42
arXiv: DeepSeek@Natalia Tarasova, Enrique Balp-Straffon, Aleksei Iancheruk, Yevhenii Sielskyi, Nikita Kozodoi, Liam H. Byrne, Jack Butler, Dayuan Jiang, Marcin Czelej, Andrew Ang, Yash Shah, Roi Blanco, Sergei Ivanov SWE-InfraBench 是一个新基准,用于评估大语言模型在云基础设施即代码(IaC)任务上的表现。与现有基准不同,它聚焦于 AWS CDK 的增量代码修改,而非从头生成整个代码库。数据集来自数十个真实 IaC 代码库,要求模型根据自然语言指令修改现有代码,并通过测试用例验证。评估结果显示,当前最强模型 Sonnet 3.7 的成功率仅为 34%,而推理模型 DeepSeek R1 只有 24%,表明 LLM 在云基础设施代码领域仍有显著局限。该数据集已在 Kaggle 上公开。
推荐理由:云基础设施开发者终于有了一个贴近真实工作流的评估基准——SWE-InfraBench 测试的是增量修改而非从头写代码,做 IaC 或 DevOps 的团队值得关注,看看当前模型在 AWS CDK 上的真实表现。