FrontierCode 戳破了现有基准的泡沫,真正衡量代码可维护性而非通过测试——做 AI 编程工具或智能体开发的团队,建议看看这个新标尺,它可能改变你评估模型的方式。
METR 发布 FrontierCode 基准测试,发现超过一半的 SWEBench 结果是无法合并的劣质代码。FrontierCode 包含 1000+ 小时维护者验证的软件工程任务,并设有 3000+ 条评分标准,涵盖代码质量和反作弊机制。最难的 FC Diamond 级别中,Opus 4.8 得分仅为 13.8%。该基准将 AI 编程划分为三个时代:2021 年自动补全(HumanEval)、2023 年通过测试(SWEBench)、2026 年可维护代码(FrontierCode)。数据显示,2025 年底模型能力出现跃升,最易任务的通过率在 4 个月内从 41% 提升至 74%,标志着 AI 编程从 2 次重试 95% 成功率到 6 次重试的质变。
METR 发布 FrontierCode 基准测试,发现超过一半的 SWEBench 结果是无法合并的劣质代码。FrontierCode 包含 1000+ 小时维护者验证的软件工程任务,并设有 3000+ 条评分标准,涵盖代码质量和反作弊机制。最难的 FC Diamond 级别中,Opus 4.8 得分仅为 13.8%。该基准将 AI 编程划分为三个时代:2021 年自动补全(HumanEval)、2023 年通过测试(SWEBench)、2026 年可维护代码(FrontierCode)。数据显示,2025 年底模型能力出现跃升,最易任务的通过率在 4 个月内从 41% 提升至 74%,标志着 AI 编程从 2 次重试 95% 成功率到 6 次重试的质变。
It's finally out!!! @METR_Evals found that more than half of SWEBench results is unmergeable slop. FrontierCode represents over 1000+ hours of maintainer validated software engineering work most frontier models cannot y…