全部 AI 动态 · AI 热点

6月28日

21:45

shao__meng@shao__meng

精选

LoanLens基于LandingAI构建，从6类借款人文档中结构化抽取字段，进行姓名一致性TF-IDF比对（相似度低于0.95告警）和护照篡改检测（比对核心组件位置与参考几何）。评分模型透明可解释：信用权重23%、DTI 23%、收入时效20%等，总分≥60批准，40-59复核，<40拒绝。系统附带仅限当前案件的RAG问答，支持字段溯源与人工检查。

AI产品 LandingAI LoanLens 欺诈检测 RAG 文档理解

推荐理由：这套LoanLens系统把审贷初筛自动化，用结构化字段和可解释评分替代黑盒OCR，欺诈检测能抓文档篡改，审核员能直接查每个字段的证据。

原文

6月23日

08:05

berryxia@berryxia

百度开源了Unlimited OCR模型，采用R-SWA（参考滑动窗口注意力）机制，一次前向推理即可处理32K上下文的文档，数十页PDF无需分块。与传统逐页处理的OCR不同，其KV Cache大小恒定，不随长度增长。模型灵感源于人类抄书行为，仅维护近128个状态。技术报告核心贡献者中，技术总监YY疑为DeepSeek前员工。

AI模型 Unlimited OCR 百度 DeepSeek R-SWA 文档理解

推荐理由：百度开源的Unlimited OCR能一口气读完几十页PDF，不用切块，快又准。技术总监YY可能是DeepSeek出走的，有意思。

原文

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

6月10日

11:10

Jerry Liu@jerryjliu0

精选

LlamaIndex 创始人 Jerry Liu 在 X 上发布了对 Claude Fable 5 的 ParseBench 基准测试结果。该模型在推理密集型任务（如 SWE-Bench Pro、FrontierCode）上表现卓越，但在文档理解任务上仅与 Gemini 3 Flash 相当，而 token 成本却高出 10-15 倍。有趣的是，模型自身似乎也意识到这一点，在被问及最不喜欢的任务时，它表示不喜欢“请求完全明确、答案完全已知”的任务，暗示其表现不佳部分源于“懒惰”和缺乏意愿。尽管在内容忠实度（90.02%）和语义格式化（72.62%）上领先，但整体仍远逊于专业 OCR 提供商。

AI模型 Claude Fable 5 文档理解 ParseBench 基准测试 LlamaIndex

推荐理由：做文档解析或 RAG 的团队注意了——Claude Fable 5 在推理上很强，但文档理解性价比不如 Gemini 3 Flash，甚至不如专业 OCR 服务。如果你在选模型做文档处理，这篇评测能帮你省下 10 倍 token 成本，值得点开对比。

原文

10:50

LlamaIndex@llama_index

精选

LlamaIndex 在 ParseBench 上测试了 Anthropic Fable 5 模型的文档理解能力。结果显示，Fable 5 在内容忠实度上达到 90.02%，领先于 Gemini 3 Flash 的 86.19% 和 GPT-5.5 的 86.81%。在语义格式化方面，Fable 5 以 72.62% 的成绩领先对手超过 12 个百分点。这两个指标是评估前沿模型文档理解能力的关键。尽管 Fable 5 表现突出，但测试也表明在解锁文档理解方面仍有提升空间。

AI模型 Anthropic Fable 5 文档理解 ParseBench 模型评测

推荐理由：做文档解析、信息提取或 RAG 应用的团队，这个测试直接告诉你哪个模型更靠谱——Fable 5 在忠实原文和保留格式上明显领先，值得在项目中优先试一下。

原文

6月5日

00:51

Jerry Liu@jerryjliu0

LlamaIndex 团队在 CVPR 2026 上发布了 ParseBench，这是一个针对视觉语言模型（VLM）的文档理解基准测试。该基准包含 2000 页真实企业文档，评估模型在表格、图表、视觉定位、语义格式和内容忠实度等方面的能力。核心目标是衡量模型是否能正确语义理解文档，而不只是过拟合基准。团队指出，当前前沿模型多针对编程、数学和科学推理优化，缺乏精确的视觉理解能力，ParseBench 旨在推动这一领域的进步。相关论文和网站已公开。

论文 ParseBench 文档理解基准测试 VLM CVPR

推荐理由：做文档解析或 RAG 系统的开发者终于有了一个贴近真实业务场景的评估工具——ParseBench 用 2000 页企业文档测试 VLM 的语义理解能力，比现有基准更贴近实际需求，值得关注并尝试。

原文

6月4日

22:24

Jerry Liu@jerryjliu0

72°

LlamaIndex 在 CVPR 2026 上发布了 ParseBench，这是目前最全面的文档理解基准测试，专门用于评估视觉语言模型（VLM）对真实企业文档的解析能力。该基准包含 2000 页真实企业文档、167K+ 测试规则，覆盖表格、图表、视觉定位、语义格式和内容忠实度五个维度。核心目标是衡量模型能否正确语义理解文档，避免过拟合到特定基准。当前前沿模型更擅长编程、数学和科学推理，而文档 OCR 的 100% 准确解析仍是最终挑战，ParseBench 旨在推动这一方向进步。

论文文档理解基准测试 VLM OCR LlamaIndex

推荐理由：做文档解析、RAG 或 AI Agent 的团队终于有了一个靠谱的评测标准——ParseBench 覆盖了企业文档的真实痛点，建议直接拿去测你的模型或产品。

原文

5月29日

12:07

Jerry Liu@jerryjliu0

LlamaIndex 对 Opus 4.8 进行了全面的文档理解基准测试，并与 Opus 4.7 对比。结果显示，Opus 4.8 在表格、语义格式和布局方面略有提升，但在图表和内容忠实度方面出现轻微退化。这表明 Opus 4.8 并未针对视觉文档理解进行专门的后训练。完整结果已发布在 ParseBench 上。LlamaIndex 指出，让 LLM 像人类一样阅读文档仍有大量改进空间，而 LlamaParse 仍是 AI 智能体最佳的文档摄取 API。

AI模型 Opus 4.8 文档理解基准测试 LlamaIndex ParseBench

推荐理由：做文档解析或 RAG 应用的团队，Opus 4.8 的表格能力提升值得关注，但内容忠实度下降可能影响关键业务，建议先跑一遍 ParseBench 再决定是否升级。

原文

5月19日

11:51

Jerry Liu@jerryjliu0

精选

LlamaIndex 创始人 Jerry Liu 宣布发布 ParseBench，这是一个专门测试前沿模型理解真实企业文档能力的基准。现有基准多聚焦于编程和推理，但文档理解是下游知识工作的前提。ParseBench 涵盖密集表格、图表、复杂布局等真实场景，尤其针对金融、保险、法律等行业的文档。该基准已开放论文、排行榜和完整数据集，并计划举办线上研讨会。

AI产品文档理解基准测试 LlamaIndex 企业文档智能体

推荐理由：做文档解析或企业级 AI 智能体的团队终于有了针对性的评估工具——ParseBench 填补了现有基准只测代码不测文档的空白，做文档理解相关开发的人可以直接用它验证模型效果。

原文

5月16日

16:08

Jerry Liu@jerryjliu0

精选

INF 发布了两个新的开放权重模型 Infinity-Parser2-Pro (35B) 和 Infinity-Parser2-Flash (2B)，在 Hugging Face 的 ParseBench 文档理解榜单上排名第一。这两个模型通过一个包含 500 万多样本的综合合成数据引擎和一种新型联合强化学习算法训练，能够同时优化文档解析、元素解析、图表解析等多个复杂任务。ParseBench 是一个专门测试真实企业文档语义理解的开放基准，涵盖表格、图表、语义格式等指标。这意味着开发者现在可以免费使用这些模型来提升文档处理能力。

AI模型文档理解开放权重模型 INF ParseBench 强化学习

推荐理由：做文档解析、企业数据提取的团队可以直接用这两个模型替代商业 API，2B 的 Flash 版本适合轻量部署，35B 的 Pro 版本适合高精度场景，建议去 ParseBench 看看具体指标。

原文