全部 AI 动态 · AI 热点

6月25日

08:26

Jerry Liu@jerryjliu0

精选

Jerry Liu 发布了 Mistral OCR 在 ParseBench 上的更新结果。该模型的总体得分超过了 GPT-5.5，仅略低于 Gemini 3.1 Pro。在内容忠实度、语义格式和视觉定位方面表现优秀，在表格处理上表现一般，图表能力有限。这些结果展示了该价格区间内模型的竞争力。

AI模型 Mistral OCR GPT-5.5 Gemini 3.1 Pro ParseBench OCR

推荐理由：Mistral OCR 在 ParseBench 上打败了 GPT-5.5，离 Gemini 3.1 Pro 也不远，价格还便宜，做文档解析很值。

原文

01:18

Jerry Liu@jerryjliu0

精选

Mistral OCR 在 ParseBench 上与多个前沿和开源权重模型进行对比测试。它在语义格式化方面表现突出，能准确处理删除线、上下标、标题层级和链接。在内容忠实度（阅读顺序、幻觉、遗漏）和视觉定位（边界框）上也具有竞争力。表格处理能力一般，几乎没有图表能力。其价格明显低于 Azure Doc Intelligence 和 AWS Textract 等 OCR 服务商。

AI模型 Mistral OCR ParseBench OCR 语义格式化基准测试

推荐理由：Mistral OCR 在 ParseBench 上语义格式化很强，价格还比 Azure/AWS 便宜，适合做高质量 OCR 又不愿花大价钱的场景。

原文

6月20日

01:30

Jerry Liu@jerryjliu0

精选

LiteParse v2.1是一个纯代码的Markdown文档解析器，不使用任何VLM或AI/OCR模型。在ParseBench基准上，它超越了Qwen 3.5-9B和GLM-OCR。但在密集视觉输出上仍落后于Gemma 4和PaddleOCR-VL。对于文字/表格密集的文档，差距显著缩小。它是目前最快且完全开源免费的解析器（Apache 2.0），支持CLI/Rust/Node/Python/WASM。

AI产品 LiteParse 文档解析 ParseBench Qwen 3.5-9B 开源工具

推荐理由：LiteParse v2.1用纯代码搞定Markdown解析，比很多VLM还准，文字表格多的文档尤其好用，速度飞快还免费开源，赶紧去试试。

原文

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

6月10日

11:10

Jerry Liu@jerryjliu0

精选

LlamaIndex 创始人 Jerry Liu 在 X 上发布了对 Claude Fable 5 的 ParseBench 基准测试结果。该模型在推理密集型任务（如 SWE-Bench Pro、FrontierCode）上表现卓越，但在文档理解任务上仅与 Gemini 3 Flash 相当，而 token 成本却高出 10-15 倍。有趣的是，模型自身似乎也意识到这一点，在被问及最不喜欢的任务时，它表示不喜欢“请求完全明确、答案完全已知”的任务，暗示其表现不佳部分源于“懒惰”和缺乏意愿。尽管在内容忠实度（90.02%）和语义格式化（72.62%）上领先，但整体仍远逊于专业 OCR 提供商。

AI模型 Claude Fable 5 文档理解 ParseBench 基准测试 LlamaIndex

推荐理由：做文档解析或 RAG 的团队注意了——Claude Fable 5 在推理上很强，但文档理解性价比不如 Gemini 3 Flash，甚至不如专业 OCR 服务。如果你在选模型做文档处理，这篇评测能帮你省下 10 倍 token 成本，值得点开对比。

原文

10:50

LlamaIndex@llama_index

精选

LlamaIndex 在 ParseBench 上测试了 Anthropic Fable 5 模型的文档理解能力。结果显示，Fable 5 在内容忠实度上达到 90.02%，领先于 Gemini 3 Flash 的 86.19% 和 GPT-5.5 的 86.81%。在语义格式化方面，Fable 5 以 72.62% 的成绩领先对手超过 12 个百分点。这两个指标是评估前沿模型文档理解能力的关键。尽管 Fable 5 表现突出，但测试也表明在解锁文档理解方面仍有提升空间。

AI模型 Anthropic Fable 5 文档理解 ParseBench 模型评测

推荐理由：做文档解析、信息提取或 RAG 应用的团队，这个测试直接告诉你哪个模型更靠谱——Fable 5 在忠实原文和保留格式上明显领先，值得在项目中优先试一下。

原文

6月5日

00:51

Jerry Liu@jerryjliu0

LlamaIndex 团队在 CVPR 2026 上发布了 ParseBench，这是一个针对视觉语言模型（VLM）的文档理解基准测试。该基准包含 2000 页真实企业文档，评估模型在表格、图表、视觉定位、语义格式和内容忠实度等方面的能力。核心目标是衡量模型是否能正确语义理解文档，而不只是过拟合基准。团队指出，当前前沿模型多针对编程、数学和科学推理优化，缺乏精确的视觉理解能力，ParseBench 旨在推动这一领域的进步。相关论文和网站已公开。

论文 ParseBench 文档理解基准测试 VLM CVPR

推荐理由：做文档解析或 RAG 系统的开发者终于有了一个贴近真实业务场景的评估工具——ParseBench 用 2000 页企业文档测试 VLM 的语义理解能力，比现有基准更贴近实际需求，值得关注并尝试。

原文

5月29日

12:40

LlamaIndex@llama_index

精选

LlamaIndex 今日发布了 LlamaParse Opus 4.8 版本，并公布了 ParseBench 评测结果。新版本在表格解析、语义格式和布局方面有轻微提升，但在图表解析和内容忠实度上出现小幅退步。同时，每页价格略有上涨。团队表示，在教 LLM 像人类一样阅读文档方面仍有大量优化空间。LlamaParse 依然是 AI 智能体最佳的文档摄取 API。

AI产品 LlamaParse 文档解析 ParseBench AI智能体 API

推荐理由：做文档解析或构建 AI 智能体的开发者，可以看看 ParseBench 的详细数据，评估是否值得升级。

原文

12:07

Jerry Liu@jerryjliu0

LlamaIndex 对 Opus 4.8 进行了全面的文档理解基准测试，并与 Opus 4.7 对比。结果显示，Opus 4.8 在表格、语义格式和布局方面略有提升，但在图表和内容忠实度方面出现轻微退化。这表明 Opus 4.8 并未针对视觉文档理解进行专门的后训练。完整结果已发布在 ParseBench 上。LlamaIndex 指出，让 LLM 像人类一样阅读文档仍有大量改进空间，而 LlamaParse 仍是 AI 智能体最佳的文档摄取 API。

AI模型 Opus 4.8 文档理解基准测试 LlamaIndex ParseBench

推荐理由：做文档解析或 RAG 应用的团队，Opus 4.8 的表格能力提升值得关注，但内容忠实度下降可能影响关键业务，建议先跑一遍 ParseBench 再决定是否升级。

原文

5月16日

16:08

Jerry Liu@jerryjliu0

精选

INF 发布了两个新的开放权重模型 Infinity-Parser2-Pro (35B) 和 Infinity-Parser2-Flash (2B)，在 Hugging Face 的 ParseBench 文档理解榜单上排名第一。这两个模型通过一个包含 500 万多样本的综合合成数据引擎和一种新型联合强化学习算法训练，能够同时优化文档解析、元素解析、图表解析等多个复杂任务。ParseBench 是一个专门测试真实企业文档语义理解的开放基准，涵盖表格、图表、语义格式等指标。这意味着开发者现在可以免费使用这些模型来提升文档处理能力。

AI模型文档理解开放权重模型 INF ParseBench 强化学习

推荐理由：做文档解析、企业数据提取的团队可以直接用这两个模型替代商业 API，2B 的 Flash 版本适合轻量部署，35B 的 Pro 版本适合高精度场景，建议去 ParseBench 看看具体指标。

原文