Cognition 推出 FrontierCode：将 Coding 评估标准从可用提升到可合并，Claude Opus 4.8 领先

精选理由

FrontierCode 把 AI 编程评估从“能跑就行”升级到“能合并”，做代码质量评估或 AI 编程工具的团队可以直接参考这套标准，看看自己的模型在真实维护者眼中能拿几分。

AI 摘要

Cognition 发布 FrontierCode 评估基准，旨在衡量 AI 模型生成代码的“可合并性”，而非仅通过单元测试。该基准包含 150 个来自 36 个旗舰开源仓库的任务，由 20 多位维护者参与，每个任务耗时 40 小时以上。评估沿六个维度（行为正确性、回归安全、机械整洁、测试质量、Scope 纪律、代码质量）打分，并设置 blocker 和 non-blocker 标准。结果中 Claude Opus 4.8 在 Diamond 子集得分 13.4%，GPT-5.5 为 6.3%，Kimi K2.6 仅 3.8%，显示前沿模型仍有巨大提升空间。

AI 翻译 · 中文

shao__mengCognition 推出「FrontierCode」：把 Coding 评估标准，从可用，提升到高质量、可合并！评估结果 Top2：Claude Opus 4.8、GPT-5.5 cognition.ai/blog/frontier-… FrontierCode 评估内容规模与结构： · 150 个任务，来自 36 个 flagship 开源仓库 · 20+ 维护者参与，每任务投入 40+ 小时 · 三层嵌套难度：Extended（…

Gary Marcus06-08 23:28原文
rohanpaul_ai06-09 12:32原文
lmarena.ai06-09 23:56原文

查看原推