FrontierCode

§ 01综述

FrontierCode 是一个专注于衡量 AI 模型在真实世界软件工程任务上表现的新型基准测试，旨在评估模型编写、调试和维护代码的能力。该基准由 Cognition 等机构推动，近期成为业界关注的焦点，多个先进模型在此榜单上展开竞争。

FrontierCode 近期进展

2025 年 4 月，Cognition 发布 SWE-1.7 模型，该模型基于 Kimi K2.7 强化学习优化，在 FrontierCode 上取得了改进。 Cognition 发布 SWE-1.7 模型

同一时期，Claude Sonnet 5 在 FrontierCode 基准上得分 53.8%，超越了此前 Opus 4.8 的成绩，并已集成至 Devin Desktop 和 Devin CLI 中供开发者使用。 Sonnet 5 在 FrontierCode 基准得分 53.8% 超越 Opus 4.8

另一则报道指出，FrontierCode 基准发布时，Opus 4.8 仅取得 13.8% 的得分，且半数 SWEBench 结果无法合并，引发了关于基准难度和一致性的讨论。 FrontierCode 基准发布：Opus 4.8 仅 13.8%

当前焦点与观察点

当前 FrontierCode 的核心焦点在于其能否成为继 SWE-bench 之后的下一代编程能力标尺。不同模型在基准上的表现差异悬殊（从 13.8% 到 53.8%），表明测试可能对特定训练方法敏感。此外，部分模型宣称“随努力扩展”失效（如 Opus 4.8 和 GPT 5.5 在 FC Diamond 上），这引发了对模型 scaling 瓶颈的担忧。基准本身的可复现性和任务设计合理性也成为争议点，有言论称“半数 SWEBench 结果不可合并”，暗示现有评估流程可能存在缺陷。整体而言，FrontierCode 正处于快速演化期，其权威性有待更多验证。

§ 02相关报道10 条在档

§ 03邻近话题