Claude Fable 5 在文档理解上表现平平，自曝“懒惰”

精选理由

做文档解析或 RAG 的团队注意了——Claude Fable 5 在推理上很强，但文档理解性价比不如 Gemini 3 Flash，甚至不如专业 OCR 服务。如果你在选模型做文档处理，这篇评测能帮你省下 10 倍 token 成本，值得点开对比。

AI 摘要

LlamaIndex 创始人 Jerry Liu 在 X 上发布了对 Claude Fable 5 的 ParseBench 基准测试结果。该模型在推理密集型任务（如 SWE-Bench Pro、FrontierCode）上表现卓越，但在文档理解任务上仅与 Gemini 3 Flash 相当，而 token 成本却高出 10-15 倍。有趣的是，模型自身似乎也意识到这一点，在被问及最不喜欢的任务时，它表示不喜欢“请求完全明确、答案完全已知”的任务，暗示其表现不佳部分源于“懒惰”和缺乏意愿。尽管在内容忠实度（90.02%）和语义格式化（72.62%）上领先，但整体仍远逊于专业 OCR 提供商。

AI 翻译 · 中文

Jerry LiuClaude Fable 5 thinks document parsing is beneath it It is absolutely crushing on all reasoning-intensive/long horizon benchmarks: SWE-Bench Pro, FrontierCode, GDPval, Runescape, etc. But for document understanding tasks…

Scott Wu06-09 19:40原文
Decoder06-10 13:34原文
宝玉06-09 17:22原文
Cognition06-09 17:25原文
elvis06-09 17:29原文
rohanpaul_ai06-09 17:53原文
Aadit Sheth06-09 19:02原文
berryxia06-09 22:47原文
Simon Willison’s Weblog06-09 23:59原文
lmarena.ai06-11 19:35原文

查看原推