SWE-InfraBench：评估 LLM 在云基础设施代码上的能力

精选理由

云基础设施开发者终于有了一个贴近真实工作流的评估基准——SWE-InfraBench 测试的是增量修改而非从头写代码，做 IaC 或 DevOps 的团队值得关注，看看当前模型在 AWS CDK 上的真实表现。

AI 摘要

SWE-InfraBench 是一个新基准，用于评估大语言模型在云基础设施即代码（IaC）任务上的表现。与现有基准不同，它聚焦于 AWS CDK 的增量代码修改，而非从头生成整个代码库。数据集来自数十个真实 IaC 代码库，要求模型根据自然语言指令修改现有代码，并通过测试用例验证。评估结果显示，当前最强模型 Sonnet 3.7 的成功率仅为 34%，而推理模型 DeepSeek R1 只有 24%，表明 LLM 在云基础设施代码领域仍有显著局限。该数据集已在 Kaggle 上公开。

AI 翻译 · 中文

arXiv: DeepSeekBuilding infrastructure-as-code (IaC) in cloud computing is a critical task, underpinning the reliability, scalability, and security of modern software systems. Despite the remarkable progress of large language models (L…

阅读原文