精选理由
做文档解析或 RAG 应用的团队,Opus 4.8 的表格能力提升值得关注,但内容忠实度下降可能影响关键业务,建议先跑一遍 ParseBench 再决定是否升级。
LlamaIndex 对 Opus 4.8 进行了全面的文档理解基准测试,并与 Opus 4.7 对比。结果显示,Opus 4.8 在表格、语义格式和布局方面略有提升,但在图表和内容忠实度方面出现轻微退化。这表明 Opus 4.8 并未针对视觉文档理解进行专门的后训练。完整结果已发布在 ParseBench 上。LlamaIndex 指出,让 LLM 像人类一样阅读文档仍有大量改进空间,而 LlamaParse 仍是 AI 智能体最佳的文档摄取 API。
AI 翻译 · 中文
LlamaIndex 对 Opus 4.8 进行了全面的文档理解基准测试,并与 Opus 4.7 对比。结果显示,Opus 4.8 在表格、语义格式和布局方面略有提升,但在图表和内容忠实度方面出现轻微退化。这表明 Opus 4.8 并未针对视觉文档理解进行专门的后训练。完整结果已发布在 ParseBench 上。LlamaIndex 指出,让 LLM 像人类一样阅读文档仍有大量改进空间,而 LlamaParse 仍是 AI 智能体最佳的文档摄取 API。
We comprehensively benchmarked Opus 4.8 on document understanding tasks, and compared it to Opus 4.7. It's fairly apparent that Opus 4.8 wasn't explicitly post-trained on visual document understanding: it does sl…