ParseBench 是 LlamaIndex 团队在 CVPR 2026 上提出的首个面向 AI 智能体的文档理解基准测试。它的出现背景是现有文档解析评测多聚焦于纯文本或简单布局,缺乏对智能体场景(如表格提取、内容忠实度、复杂多模态推理)的系统评估。
- 近期主要进展:
- LlamaIndex 在 CVPR 2026 正式发布 ParseBench,将其定位为最全面的文档理解基准,涵盖表格、图表、表单等多种复杂元素,并强调对智能体任务的支持(如问答、信息抽取)。LlamaIndex 发布 ParseBench:CVPR 2026 最全文档理解基准
- 伴随 ParseBench 发布,LlamaIndex 同步推出了 LlamaParse Opus 4.8 版本,该版本在该基准上表现突出,尤其在表格解析方面有显著提升,但内容忠实度(即保留原文语义与结构)出现小幅下降。LlamaParse Opus 4.8 发布:ParseBench 结果出炉 以及 Opus 4.8 文档理解基准测试:表格提升但内容忠实度下降
- 此外,其他团队如 INF 也发布了 Infinity-Parser2 系列,在 ParseBench 标准下登顶文档理解榜单,显示该基准正成为领域内方法比较的重要擂台。INF 发布 Infinity-Parser2 系列,登顶文档理解榜单
当前焦点:ParseBench 推动了文档解析从“逐页 OCR”向“智能体友好型理解”的转变,但其评测指标如何平衡表格正确率与内容忠实度、是否覆盖足够多样的真实世界文档,仍是讨论热点。未来值得观察:更多团队是否会基于 ParseBench 改进解析器,以及智能体在文档任务上的实际表现能否与基准分数相匹配。