Opus 4.8 文档理解基准测试：表格提升但内容忠实度下降

精选理由

做文档解析或 RAG 应用的团队，Opus 4.8 的表格能力提升值得关注，但内容忠实度下降可能影响关键业务，建议先跑一遍 ParseBench 再决定是否升级。

AI 摘要

LlamaIndex 对 Opus 4.8 进行了全面的文档理解基准测试，并与 Opus 4.7 对比。结果显示，Opus 4.8 在表格、语义格式和布局方面略有提升，但在图表和内容忠实度方面出现轻微退化。这表明 Opus 4.8 并未针对视觉文档理解进行专门的后训练。完整结果已发布在 ParseBench 上。LlamaIndex 指出，让 LLM 像人类一样阅读文档仍有大量改进空间，而 LlamaParse 仍是 AI 智能体最佳的文档摄取 API。

AI 翻译 · 中文

Jerry LiuWe comprehensively benchmarked Opus 4.8 on document understanding tasks, and compared it to Opus 4.7. It's fairly apparent that Opus 4.8 wasn't explicitly post-trained on visual document understanding: it does sl…

向阳乔木05-29 01:06原文
歸藏(guizang.ai)05-29 01:23原文
Browser Use05-28 18:21原文
Latent.Space05-29 02:08原文
The Rundown AI05-29 10:30原文
Gary Marcus05-30 02:35原文

查看原推