Claude Fable 5 在多项基准测试中达到 SOTA

One-shotted Prince of Persia

精选理由

做复杂软件工程或科学研究的团队,Fable 5 的长任务处理能力值得一试,能显著提升效率。

AI 摘要

Claude 的 Fable 5 模型在几乎所有测试基准上达到最先进水平,尤其在软件工程、知识工作、科学研究和视觉任务中表现突出。任务越长越复杂,Fable 5 相对于其他模型的领先优势越大。该模型在单次交互中即可完成《波斯王子》游戏,展示了其强大的推理和规划能力。这标志着 AI 在复杂长任务处理上的重要进步。

AI 翻译 · 中文

Claude 的 Fable 5 模型在几乎所有测试基准上达到最先进水平,尤其在软件工程、知识工作、科学研究和视觉任务中表现突出。任务越长越复杂,Fable 5 相对于其他模型的领先优势越大。该模型在单次交互中即可完成《波斯王子》游戏,展示了其强大的推理和规划能力。这标志着 AI 在复杂长任务处理上的重要进步。

Lenny RachitskyOne-shotted Prince of Persia Claude @claudeai Fable 5 is state-of-the-art on nearly all tested benchmarks, with exceptional performance in software engineering, knowledge work, scientific research, and vision. The longer