精选理由
Claude Fable 5 在真实工程任务基准上碾压 Opus,做复杂代码合并的开发者可以直接在 Devin 中体验,效率提升立竿见影。
在 FrontierCode 基准发布仅一天后,Cognition 的 Claude Fable 5 模型即成为新的最高分获得者,尤其在最具挑战性的任务上表现突出。在 FrontierCode Diamond 子集上,Fable 5 得分从 13.4% 跃升至 29.3%,远超 Opus 的 4.8%。该基准专注于真实世界的工程任务,评估代码的可合并性和质量。Fable 5 现已可在 Devin 中使用,为开发者提供更强的编程辅助能力。
AI 翻译 · 中文
在 FrontierCode 基准发布仅一天后,Cognition 的 Claude Fable 5 模型即成为新的最高分获得者,尤其在最具挑战性的任务上表现突出。在 FrontierCode Diamond 子集上,Fable 5 得分从 13.4% 跃升至 29.3%,远超 Opus 的 4.8%。该基准专注于真实世界的工程任务,评估代码的可合并性和质量。Fable 5 现已可在 Devin 中使用,为开发者提供更强的编程辅助能力。
A new top scorer just one day after our benchmark released! Especially strong on the hardest tasks: 13.4% -> 29.3% on FrontierCode Diamond compared to Opus 4.8. Cognition @cognition Claude Fable 5 is now available in …