FrontierCode 把 AI 编程评估从“能跑就行”升级到“能合并”,做代码质量评估或 AI 编程工具的团队可以直接参考这套标准,看看自己的模型在真实维护者眼中能拿几分。
Cognition 发布 FrontierCode 评估基准,旨在衡量 AI 模型生成代码的“可合并性”,而非仅通过单元测试。该基准包含 150 个来自 36 个旗舰开源仓库的任务,由 20 多位维护者参与,每个任务耗时 40 小时以上。评估沿六个维度(行为正确性、回归安全、机械整洁、测试质量、Scope 纪律、代码质量)打分,并设置 blocker 和 non-blocker 标准。结果中 Claude Opus 4.8 在 Diamond 子集得分 13.4%,GPT-5.5 为 6.3%,Kimi K2.6 仅 3.8%,显示前沿模型仍有巨大提升空间。
Cognition 发布 FrontierCode 评估基准,旨在衡量 AI 模型生成代码的“可合并性”,而非仅通过单元测试。该基准包含 150 个来自 36 个旗舰开源仓库的任务,由 20 多位维护者参与,每个任务耗时 40 小时以上。评估沿六个维度(行为正确性、回归安全、机械整洁、测试质量、Scope 纪律、代码质量)打分,并设置 blocker 和 non-blocker 标准。结果中 Claude Opus 4.8 在 Diamond 子集得分 13.4%,GPT-5.5 为 6.3%,Kimi K2.6 仅 3.8%,显示前沿模型仍有巨大提升空间。
Cognition 推出「FrontierCode」:把 Coding 评估标准,从可用,提升到高质量、可合并! 评估结果 Top2:Claude Opus 4.8、GPT-5.5 cognition.ai/blog/frontier-… FrontierCode 评估内容 规模与结构: · 150 个任务,来自 36 个 flagship 开源仓库 · 20+ 维护者参与,每任务投入 40+ 小时 · 三层嵌套难度:Extended(…