08:26Jerry Liu@jerryjliu0精选Jerry Liu 发布了 Mistral OCR 在 ParseBench 上的更新结果。该模型的总体得分超过了 GPT-5.5,仅略低于 Gemini 3.1 Pro。在内容忠实度、语义格式和视觉定位方面表现优秀,在表格处理上表现一般,图表能力有限。这些结果展示了该价格区间内模型的竞争力。AI模型Mistral OCRGPT-5.5Gemini 3.1 ProParseBenchOCR推荐理由:Mistral OCR 在 ParseBench 上打败了 GPT-5.5,离 Gemini 3.1 Pro 也不远,价格还便宜,做文档解析很值。原文
01:18Jerry Liu@jerryjliu0精选Mistral OCR 在 ParseBench 上与多个前沿和开源权重模型进行对比测试。它在语义格式化方面表现突出,能准确处理删除线、上下标、标题层级和链接。在内容忠实度(阅读顺序、幻觉、遗漏)和视觉定位(边界框)上也具有竞争力。表格处理能力一般,几乎没有图表能力。其价格明显低于 Azure Doc Intelligence 和 AWS Textract 等 OCR 服务商。AI模型Mistral OCRParseBenchOCR语义格式化基准测试推荐理由:Mistral OCR 在 ParseBench 上语义格式化很强,价格还比 Azure/AWS 便宜,适合做高质量 OCR 又不愿花大价钱的场景。原文
01:30Jerry Liu@jerryjliu0精选LiteParse v2.1是一个纯代码的Markdown文档解析器,不使用任何VLM或AI/OCR模型。在ParseBench基准上,它超越了Qwen 3.5-9B和GLM-OCR。但在密集视觉输出上仍落后于Gemma 4和PaddleOCR-VL。对于文字/表格密集的文档,差距显著缩小。它是目前最快且完全开源免费的解析器(Apache 2.0),支持CLI/Rust/Node/Python/WASM。AI产品LiteParse文档解析ParseBenchQwen 3.5-9B开源工具2 个信源在谈推荐理由:LiteParse v2.1用纯代码搞定Markdown解析,比很多VLM还准,文字表格多的文档尤其好用,速度飞快还免费开源,赶紧去试试。原文
11:10Jerry Liu@jerryjliu0精选LlamaIndex 创始人 Jerry Liu 在 X 上发布了对 Claude Fable 5 的 ParseBench 基准测试结果。该模型在推理密集型任务(如 SWE-Bench Pro、FrontierCode)上表现卓越,但在文档理解任务上仅与 Gemini 3 Flash 相当,而 token 成本却高出 10-15 倍。有趣的是,模型自身似乎也意识到这一点,在被问及最不喜欢的任务时,它表示不喜欢“请求完全明确、答案完全已知”的任务,暗示其表现不佳部分源于“懒惰”和缺乏意愿。尽管在内容忠实度(90.02%)和语义格式化(72.62%)上领先,但整体仍远逊于专业 OCR 提供商。AI模型Claude Fable 5文档理解ParseBench基准测试LlamaIndex10 个信源在谈推荐理由:做文档解析或 RAG 的团队注意了——Claude Fable 5 在推理上很强,但文档理解性价比不如 Gemini 3 Flash,甚至不如专业 OCR 服务。如果你在选模型做文档处理,这篇评测能帮你省下 10 倍 token 成本,值得点开对比。原文
10:50LlamaIndex@llama_index精选LlamaIndex 在 ParseBench 上测试了 Anthropic Fable 5 模型的文档理解能力。结果显示,Fable 5 在内容忠实度上达到 90.02%,领先于 Gemini 3 Flash 的 86.19% 和 GPT-5.5 的 86.81%。在语义格式化方面,Fable 5 以 72.62% 的成绩领先对手超过 12 个百分点。这两个指标是评估前沿模型文档理解能力的关键。尽管 Fable 5 表现突出,但测试也表明在解锁文档理解方面仍有提升空间。AI模型AnthropicFable 5文档理解ParseBench模型评测10 个信源在谈推荐理由:做文档解析、信息提取或 RAG 应用的团队,这个测试直接告诉你哪个模型更靠谱——Fable 5 在忠实原文和保留格式上明显领先,值得在项目中优先试一下。原文
00:51Jerry Liu@jerryjliu0LlamaIndex 团队在 CVPR 2026 上发布了 ParseBench,这是一个针对视觉语言模型(VLM)的文档理解基准测试。该基准包含 2000 页真实企业文档,评估模型在表格、图表、视觉定位、语义格式和内容忠实度等方面的能力。核心目标是衡量模型是否能正确语义理解文档,而不只是过拟合基准。团队指出,当前前沿模型多针对编程、数学和科学推理优化,缺乏精确的视觉理解能力,ParseBench 旨在推动这一领域的进步。相关论文和网站已公开。论文ParseBench文档理解基准测试VLMCVPR推荐理由:做文档解析或 RAG 系统的开发者终于有了一个贴近真实业务场景的评估工具——ParseBench 用 2000 页企业文档测试 VLM 的语义理解能力,比现有基准更贴近实际需求,值得关注并尝试。原文
12:40LlamaIndex@llama_index精选LlamaIndex 今日发布了 LlamaParse Opus 4.8 版本,并公布了 ParseBench 评测结果。新版本在表格解析、语义格式和布局方面有轻微提升,但在图表解析和内容忠实度上出现小幅退步。同时,每页价格略有上涨。团队表示,在教 LLM 像人类一样阅读文档方面仍有大量优化空间。LlamaParse 依然是 AI 智能体最佳的文档摄取 API。AI产品LlamaParse文档解析ParseBenchAI智能体API推荐理由:做文档解析或构建 AI 智能体的开发者,可以看看 ParseBench 的详细数据,评估是否值得升级。原文
12:07Jerry Liu@jerryjliu0LlamaIndex 对 Opus 4.8 进行了全面的文档理解基准测试,并与 Opus 4.7 对比。结果显示,Opus 4.8 在表格、语义格式和布局方面略有提升,但在图表和内容忠实度方面出现轻微退化。这表明 Opus 4.8 并未针对视觉文档理解进行专门的后训练。完整结果已发布在 ParseBench 上。LlamaIndex 指出,让 LLM 像人类一样阅读文档仍有大量改进空间,而 LlamaParse 仍是 AI 智能体最佳的文档摄取 API。AI模型Opus 4.8文档理解基准测试LlamaIndexParseBench6 个信源在谈推荐理由:做文档解析或 RAG 应用的团队,Opus 4.8 的表格能力提升值得关注,但内容忠实度下降可能影响关键业务,建议先跑一遍 ParseBench 再决定是否升级。原文
16:08Jerry Liu@jerryjliu0精选INF 发布了两个新的开放权重模型 Infinity-Parser2-Pro (35B) 和 Infinity-Parser2-Flash (2B),在 Hugging Face 的 ParseBench 文档理解榜单上排名第一。这两个模型通过一个包含 500 万多样本的综合合成数据引擎和一种新型联合强化学习算法训练,能够同时优化文档解析、元素解析、图表解析等多个复杂任务。ParseBench 是一个专门测试真实企业文档语义理解的开放基准,涵盖表格、图表、语义格式等指标。这意味着开发者现在可以免费使用这些模型来提升文档处理能力。AI模型文档理解开放权重模型INFParseBench强化学习推荐理由:做文档解析、企业数据提取的团队可以直接用这两个模型替代商业 API,2B 的 Flash 版本适合轻量部署,35B 的 Pro 版本适合高精度场景,建议去 ParseBench 看看具体指标。原文