FrontierCode 基准测试：Claude Opus 4.8 仅 13.4%，AI 代码离可合并还很远

精选理由

FrontierCode 把 AI 编程评测从「能跑就行」升级到「能合并才算数」，做代码质量评估或 AI 编程工具的团队值得关注——它暴露了当前模型在真实代码审查中的致命短板。

AI 摘要

Cognition 推出 FrontierCode 编码基准测试，评估 AI 生成的代码是否达到人类维护者愿意合并的质量，而不仅仅是能否通过测试。该基准包含 150 个任务，由 20 多位开源维护者设计，每个任务耗时超 40 小时。结果显示，最强模型 Claude Opus 4.8 在最高难度 Diamond 子集上仅得 13.4%，GPT-5.5 得 6.3%，Gemini 3.1 Pro 得 4.7%。评分系统引入“阻塞项”机制，任何导致无法合并的问题（如行为错误、不安全改动）直接判 0 分，通过后才按可读性、类型安全等软质量项加权。这揭示了当前 AI 编程助手在代码设计、约束和项目风格适配上的严重不足。

AI 翻译 · 中文

rohanpaul_aiIncredible! This is just the benchmark we needed. Claude Opus 4.8, achieves a score of only 13.4%. Other models score even lower: GPT-5.5 receives 6.3%, Gemini 3.1 Pro 4.7%, and others even less. Cognition is introducin…

shao__meng06-09 01:01原文
Gary Marcus06-08 23:28原文
lmarena.ai06-09 23:56原文

查看原推