SWE-Mutation：评估LLM生成测试套件可靠性的新基准

精选理由

软件工程团队和AI研究者终于有了一个严谨的测试套件质量评估工具——SWE-Mutation能帮你判断LLM生成的测试是否真的可靠，做自动化测试或代码修复的开发者值得关注。

AI 摘要

SWE-Mutation 是一个新基准，用于评估大语言模型（LLM）生成的测试套件的质量。它通过引入系统性的变异解决方案来“欺骗”测试套件，从而衡量测试套件的判别能力。该基准包含从800个原始实例衍生的2,636个变异变体，并覆盖九种编程语言。实验表明，即使是DeepSeek-V3.1，其验证率也仅为10.20%，检测率为36.15%，暴露了当前LLM在生成可靠测试套件方面的严重不足。该研究还提出了一种智能体驱动的变异策略，使测试套件更难被欺骗，从而更真实地反映LLM的能力缺陷。

AI 翻译 · 中文

arXiv: DeepSeekEvaluating software engineering capabilities has become a core component of modern large language models (LLMs); however, the key bottleneck hindering further scaling lies not in the scarcity of high-quality solutions, b…

阅读原文