文档理解领域近期迎来标准化基准和模型更新的密集进展,但模型表现并不平衡。
- 近期主要进展:
- LlamaIndex 团队在 CVPR 2026 发布 ParseBench,号称首个面向 AI 智能体的文档理解基准,涵盖表格、布局、多模态等复杂场景。LlamIndex 发布 ParseBench:CVPR 2026 最全文档理解基准
- Anthropic 的 Fable 5 在 ParseBench 测试中取得领先成绩,但后续有自曝“懒惰”问题,显示模型在部分任务上表现不稳定。Claude Fable 5 在文档理解上表现平平,自曝“懒惰”
- Opus 4.8 在文档理解基准测试中表格处理能力提升,但内容忠实度反而下降,暴露出优化中的 trade-off。Opus 4.8 文档理解基准测试:表格提升但内容忠实度下降
- Infi 发布 Infinity-Parser2 系列,声称登顶文档理解榜单,强调对复杂版式的解析能力。INF 发布 Infinity-Parser2 系列,登顶文档理解榜单
当前焦点 / 未来观察点:
当前焦点在于基准统一与模型可靠性:ParseBench 成为较权威的参考,但模型间的排名波动较大,且存在“懒惰”等意想不到的行为退化。未来需关注:1) 多模态与纯文本理解的融合效果;2) 模型在长文档、推理场景中的持续表现;3) 基准自身能否覆盖真实业务中多样化的文档形态。