AI模型精选

Claude Fable 5 在文档理解上表现平平,自曝“懒惰”

Claude Fable 5 thinks document parsing is beneath it It is absolutely crushing on all reasoning-int...

精选理由

做文档解析或 RAG 的团队注意了——Claude Fable 5 在推理上很强,但文档理解性价比不如 Gemini 3 Flash,甚至不如专业 OCR 服务。如果你在选模型做文档处理,这篇评测能帮你省下 10 倍 token 成本,值得点开对比。

AI 摘要

LlamaIndex 创始人 Jerry Liu 在 X 上发布了对 Claude Fable 5 的 ParseBench 基准测试结果。该模型在推理密集型任务(如 SWE-Bench Pro、FrontierCode)上表现卓越,但在文档理解任务上仅与 Gemini 3 Flash 相当,而 token 成本却高出 10-15 倍。有趣的是,模型自身似乎也意识到这一点,在被问及最不喜欢的任务时,它表示不喜欢“请求完全明确、答案完全已知”的任务,暗示其表现不佳部分源于“懒惰”和缺乏意愿。尽管在内容忠实度(90.02%)和语义格式化(72.62%)上领先,但整体仍远逊于专业 OCR 提供商。

AI 翻译 · 中文

LlamaIndex 创始人 Jerry Liu 在 X 上发布了对 Claude Fable 5 的 ParseBench 基准测试结果。该模型在推理密集型任务(如 SWE-Bench Pro、FrontierCode)上表现卓越,但在文档理解任务上仅与 Gemini 3 Flash 相当,而 token 成本却高出 10-15 倍。有趣的是,模型自身似乎也意识到这一点,在被问及最不喜欢的任务时,它表示不喜欢“请求完全明确、答案完全已知”的任务,暗示其表现不佳部分源于“懒惰”和缺乏意愿。尽管在内容忠实度(90.02%)和语义格式化(72.62%)上领先,但整体仍远逊于专业 OCR 提供商。

Jerry LiuClaude Fable 5 thinks document parsing is beneath it It is absolutely crushing on all reasoning-intensive/long horizon benchmarks: SWE-Bench Pro, FrontierCode, GDPval, Runescape, etc. But for document understanding tasks