近期AI领域围绕着代码生成与长链推理两大方向密集发声。代码方面,Cognition 推出的 FrontierCode 基准将评价标准从“可用”提升至“可合并”,要求生成代码能直接并入生产库,从而更真实反映工程实用性。Claude Opus 4.8 在该基准上以 13.4% 胜率领先(FrontierCode 基准测试:Claude Opus 4.8 仅 13.4%,AI 代码离可合并还很远),但次日 Claude Fable 5 即以更高分数登顶(Claude Fable 5 登顶 FrontierCode 基准,一天内刷新纪录),显示一线模型进步之快,同时也说明当前“可合并”能力仍属匮乏——多数 AI 代码还需大量人工改造。
推理方面,多篇 arXiv 论文探索提升模型深度推理能力:Entropy-Cut MH 利用熵识别推理过程中的关键决策点,通过采样增强推理(Entropy-Cut MH:用熵识别推理决策点,采样提升推理能力);InsightReplay 针对长链推理中注意力衰减问题,引入“洞察回放”机制(InsightReplay:通过洞察回放解决长链推理注意力衰减问题);Rubric-Grounded RL 则用结构化评判奖励实现泛化推理(Rubric-Grounded RL:结构化评判奖励实现泛化推理)。这些工作共同指向同一点:如何让模型在长链条中保持逻辑连贯并稳定输出高质量结果。
当前焦点不仅是跑分刷新,更是从“能做”到“能交付”的转型。FrontierCode 的出现使代码能力评测更贴近工程现实;而多种推理增强方法的涌现,说明业界正从追求更大模型转向聪明地利用现有模型能力。未来观察点包括:这些推理方法能否显著提升前沿代码模型在 FrontierCode 上的表现?Claude Fable 5 与 GPT-5.2(GPT-5.2:数学与科学新SOTA)的下一次交锋,以及阿里千问 Qwen3.7-Max(阿里千问发布最强智能体模型 Qwen3.7-Max)是否会在代码或推理赛道上带来突破。