FrontierCode 是 Cognition 最新推出的编程基准测试,旨在评估 AI 生成代码从“可用”到“可合并”的质量跃升。与现有基准(如 SWE-bench、METR)不同,FrontierCode 模拟真实开发场景中的代码审查与合并流程,要求 AI 不仅生成正确代码,还需符合风格规范、避免回归、通过严格审核。
METR 编码基准饱和?Cognition 发布 FrontierCode 新评测:研究者指出,FrontierCode 低通过率暗示现有基准无法区分模型能力,新基准或能更准确反映实际工程需求。(来源)
当前焦点在于 FrontierCode 是否成为衡量 AI 编码能力的新标准。其低分暴露了当前模型在代码质量、可维护性等方面的短板,但该基准本身的设计合理性及对模型未来发展的指导意义仍需更多验证。未来观察点包括:其他模型(如 GPT-5、DeepSeek)在 FrontierCode 上的表现,以及该基准能否推动 AI 生成代码的工程化落地。