10:03shao__meng@shao__meng精选76°Cognition 发布 FrontierCode 评估基准,旨在衡量 AI 模型生成代码的“可合并性”,而非仅通过单元测试。该基准包含 150 个来自 36 个旗舰开源仓库的任务,由 20 多位维护者参与,每个任务耗时 40 小时以上。评估沿六个维度(行为正确性、回归安全、机械整洁、测试质量、Scope 纪律、代码质量)打分,并设置 blocker 和 non-blocker 标准。结果中 Claude Opus 4.8 在 Diamond 子集得分 13.4%,GPT-5.5 为 6.3%,Kimi K2.6 仅 3.8%,显示前沿模型仍有巨大提升空间。AI模型CognitionFrontierCode代码评估可合并性Claude Opus 4.83 个信源在谈推荐理由:FrontierCode 把 AI 编程评估从“能跑就行”升级到“能合并”,做代码质量评估或 AI 编程工具的团队可以直接参考这套标准,看看自己的模型在真实维护者眼中能拿几分。原文