精选理由
软件工程团队和AI研究者终于有了一个严谨的测试套件质量评估工具——SWE-Mutation能帮你判断LLM生成的测试是否真的可靠,做自动化测试或代码修复的开发者值得关注。
SWE-Mutation 是一个新基准,用于评估大语言模型(LLM)生成的测试套件的质量。它通过引入系统性的变异解决方案来“欺骗”测试套件,从而衡量测试套件的判别能力。该基准包含从800个原始实例衍生的2,636个变异变体,并覆盖九种编程语言。实验表明,即使是DeepSeek-V3.1,其验证率也仅为10.20%,检测率为36.15%,暴露了当前LLM在生成可靠测试套件方面的严重不足。该研究还提出了一种智能体驱动的变异策略,使测试套件更难被欺骗,从而更真实地反映LLM的能力缺陷。
AI 翻译 · 中文
SWE-Mutation 是一个新基准,用于评估大语言模型(LLM)生成的测试套件的质量。它通过引入系统性的变异解决方案来“欺骗”测试套件,从而衡量测试套件的判别能力。该基准包含从800个原始实例衍生的2,636个变异变体,并覆盖九种编程语言。实验表明,即使是DeepSeek-V3.1,其验证率也仅为10.20%,检测率为36.15%,暴露了当前LLM在生成可靠测试套件方面的严重不足。该研究还提出了一种智能体驱动的变异策略,使测试套件更难被欺骗,从而更真实地反映LLM的能力缺陷。
Evaluating software engineering capabilities has become a core component of modern large language models (LLMs); however, the key bottleneck hindering further scaling lies not in the scarcity of high-quality solutions, b…