Diamond

§ 01综述

Diamond 是 AI 编程基准测试 FrontierCode 中的一个子集，用于评估模型在复杂、真实的编程任务上的表现。近期，FrontierCode 基准成为 AI 代码生成领域的新标杆，其中 Diamond 子集因难度更高而备受关注。

Diamond 近期进展

Mythos 上线：FrontierCode 成为新编程基准，Opus 4.8 和 GPT 5.5 在 FC Diamond 上不随努力扩展：2025年7月7日，AI 工程师 swyx 在社交媒体上指出，FrontierCode 基准测试取代了此前常见的 SWE-bench，成为评估 AI 代码能力的新标准。其中，Diamond 子集中 Opus 4.8 和 GPT 5.5 的性能并不随推理努力（如增加推理步数）而单调提升，揭示了模型能力的上限。原文链接

Claude Fable 5 登顶 FrontierCode 基准，一天内刷新纪录：2025年7月8日，开发者 Scott Wu 宣布，Claude Fable 5 在 FrontierCode 基准测试中取得最高分，仅一天就打破了先前纪录，展示了快速迭代能力。该模型在 Diamond 子集上同样表现优异。原文链接

FrontierCode 基准发布：Opus 4.8 仅 13.8%，半数 SWEBench 结果不可合并：2025年7月7日，swyx 进一步透露，FrontierCode 基准的初始报告中，Claude Opus 4.8 在整体基准上得分仅为 13.8%，而在 Diamond 子集上更低。同时，根据同一来源，SWE-bench 基准中半数以上的结果无法被合并到实际代码库，引发对其有效性的质疑。原文链接

当前焦点与观察点

Diamond 子集的出现凸显了当前 AI 代码生成模型的局限性：即使顶尖模型在简单任务上表现良好，但在 Diamond 这类高难度、需多步骤推理的编程场景中仍力不从心。同时，基准测试本身也面临争议，如 Claude Opus 4.8 在 FrontierCode 上仅 13.4% 的得分表明 AI 代码距离可合并生产还很远。此外，闭源 API 可能使用回退策略（如调用更强模型）使基准测试结果不公平，这一指控也波及 FrontierCode。整体来看，Diamond 作为新难度层，正推动社区更严格地评估模型真实编程能力。

§ 02相关报道10 条在档

§ 03邻近话题