ParseBench

§ 01综述

ParseBench 是由 LlamaIndex 团队在 CVPR 2026 发布的文档理解基准测试，专门用于评估模型解析 PDF、扫描件等复杂文档的准确性、速度和成本。它通过标准化流程衡量不同解析器的性能，迅速成为该领域公认的评测标尺。

ParseBench 近期进展

LiteParse v2.1 开源解析器发布：LiteParse v2.1 号称全球最快 PDF 转 Markdown 解析器，每页仅需 3 毫秒，支持 50 多种格式，并完全开源免费。在 ParseBench 测试中，其纯代码方案超越了 Qwen 3.5-9B 和 GLM-OCR 等大模型方案。LiteParse v2.1：最快PDF转Markdown开源解析器

Mistral OCR 在 ParseBench 上刷新成绩：Mistral OCR 更新了在 ParseBench 上的结果，超越 GPT-5.5，并接近 Gemini 3.1 Pro 的表现，展现出强劲的竞争力。Mistral OCR 在 ParseBench 上展现竞争力

LlamaParse 与 LiteParse 覆盖全场景：LlamaIndex 创始人 Jerry Liu 对比了自家两款产品——LlamaParse 和 LiteParse 在 ParseBench 上的表现，指出前者侧重精度，后者主打低成本低延迟，形成互补覆盖。LlamaParse与LiteParse覆盖文档解析精度、成本、延迟全场景

Claude Fable 5 在 ParseBench 上表现平平：Anthropic 的 Claude Fable 5 在 ParseBench 文档理解测试中仅获一般表现，甚至被开发者指出存在“懒惰”问题，未能延续此前在代码生成上的优势。Anthropic Fable 5 在 ParseBench 文档理解测试中领先

当前焦点与观察点

ParseBench 的推出促使文档解析领域从单一精度竞争转向精度、速度、成本的三角权衡。当前焦点集中在两点：一是开源方案（如 LiteParse）能否凭借速度优势挑战闭源商业模型；二是大模型（如 Mistral OCR）在通用理解能力上的进步能否转化为文档解析的质变。另一个争议点是基准本身的局限性——部分模型（如 Claude Fable 5）在复杂表格和布局理解上仍显不足，而 ParseBench 的任务设计是否充分覆盖了真实场景仍待检验。可以预见，ParseBench 将持续推动文档解析技术的迭代，成为衡量 AI 文档理解能力的重要标尺。

§ 02相关报道10 条在档

§ 03邻近话题