21:45shao__meng@shao__meng精选LoanLens基于LandingAI构建,从6类借款人文档中结构化抽取字段,进行姓名一致性TF-IDF比对(相似度低于0.95告警)和护照篡改检测(比对核心组件位置与参考几何)。评分模型透明可解释:信用权重23%、DTI 23%、收入时效20%等,总分≥60批准,40-59复核,<40拒绝。系统附带仅限当前案件的RAG问答,支持字段溯源与人工检查。AI产品LandingAILoanLens欺诈检测RAG文档理解推荐理由:这套LoanLens系统把审贷初筛自动化,用结构化字段和可解释评分替代黑盒OCR,欺诈检测能抓文档篡改,审核员能直接查每个字段的证据。原文
08:05berryxia@berryxia百度开源了Unlimited OCR模型,采用R-SWA(参考滑动窗口注意力)机制,一次前向推理即可处理32K上下文的文档,数十页PDF无需分块。与传统逐页处理的OCR不同,其KV Cache大小恒定,不随长度增长。模型灵感源于人类抄书行为,仅维护近128个状态。技术报告核心贡献者中,技术总监YY疑为DeepSeek前员工。AI模型Unlimited OCR百度DeepSeekR-SWA文档理解6 个信源在谈推荐理由:百度开源的Unlimited OCR能一口气读完几十页PDF,不用切块,快又准。技术总监YY可能是DeepSeek出走的,有意思。原文
11:10Jerry Liu@jerryjliu0精选LlamaIndex 创始人 Jerry Liu 在 X 上发布了对 Claude Fable 5 的 ParseBench 基准测试结果。该模型在推理密集型任务(如 SWE-Bench Pro、FrontierCode)上表现卓越,但在文档理解任务上仅与 Gemini 3 Flash 相当,而 token 成本却高出 10-15 倍。有趣的是,模型自身似乎也意识到这一点,在被问及最不喜欢的任务时,它表示不喜欢“请求完全明确、答案完全已知”的任务,暗示其表现不佳部分源于“懒惰”和缺乏意愿。尽管在内容忠实度(90.02%)和语义格式化(72.62%)上领先,但整体仍远逊于专业 OCR 提供商。AI模型Claude Fable 5文档理解ParseBench基准测试LlamaIndex10 个信源在谈推荐理由:做文档解析或 RAG 的团队注意了——Claude Fable 5 在推理上很强,但文档理解性价比不如 Gemini 3 Flash,甚至不如专业 OCR 服务。如果你在选模型做文档处理,这篇评测能帮你省下 10 倍 token 成本,值得点开对比。原文
10:50LlamaIndex@llama_index精选LlamaIndex 在 ParseBench 上测试了 Anthropic Fable 5 模型的文档理解能力。结果显示,Fable 5 在内容忠实度上达到 90.02%,领先于 Gemini 3 Flash 的 86.19% 和 GPT-5.5 的 86.81%。在语义格式化方面,Fable 5 以 72.62% 的成绩领先对手超过 12 个百分点。这两个指标是评估前沿模型文档理解能力的关键。尽管 Fable 5 表现突出,但测试也表明在解锁文档理解方面仍有提升空间。AI模型AnthropicFable 5文档理解ParseBench模型评测10 个信源在谈推荐理由:做文档解析、信息提取或 RAG 应用的团队,这个测试直接告诉你哪个模型更靠谱——Fable 5 在忠实原文和保留格式上明显领先,值得在项目中优先试一下。原文
00:51Jerry Liu@jerryjliu0LlamaIndex 团队在 CVPR 2026 上发布了 ParseBench,这是一个针对视觉语言模型(VLM)的文档理解基准测试。该基准包含 2000 页真实企业文档,评估模型在表格、图表、视觉定位、语义格式和内容忠实度等方面的能力。核心目标是衡量模型是否能正确语义理解文档,而不只是过拟合基准。团队指出,当前前沿模型多针对编程、数学和科学推理优化,缺乏精确的视觉理解能力,ParseBench 旨在推动这一领域的进步。相关论文和网站已公开。论文ParseBench文档理解基准测试VLMCVPR推荐理由:做文档解析或 RAG 系统的开发者终于有了一个贴近真实业务场景的评估工具——ParseBench 用 2000 页企业文档测试 VLM 的语义理解能力,比现有基准更贴近实际需求,值得关注并尝试。原文
22:24Jerry Liu@jerryjliu072°LlamaIndex 在 CVPR 2026 上发布了 ParseBench,这是目前最全面的文档理解基准测试,专门用于评估视觉语言模型(VLM)对真实企业文档的解析能力。该基准包含 2000 页真实企业文档、167K+ 测试规则,覆盖表格、图表、视觉定位、语义格式和内容忠实度五个维度。核心目标是衡量模型能否正确语义理解文档,避免过拟合到特定基准。当前前沿模型更擅长编程、数学和科学推理,而文档 OCR 的 100% 准确解析仍是最终挑战,ParseBench 旨在推动这一方向进步。论文文档理解基准测试VLMOCRLlamaIndex推荐理由:做文档解析、RAG 或 AI Agent 的团队终于有了一个靠谱的评测标准——ParseBench 覆盖了企业文档的真实痛点,建议直接拿去测你的模型或产品。原文
12:07Jerry Liu@jerryjliu0LlamaIndex 对 Opus 4.8 进行了全面的文档理解基准测试,并与 Opus 4.7 对比。结果显示,Opus 4.8 在表格、语义格式和布局方面略有提升,但在图表和内容忠实度方面出现轻微退化。这表明 Opus 4.8 并未针对视觉文档理解进行专门的后训练。完整结果已发布在 ParseBench 上。LlamaIndex 指出,让 LLM 像人类一样阅读文档仍有大量改进空间,而 LlamaParse 仍是 AI 智能体最佳的文档摄取 API。AI模型Opus 4.8文档理解基准测试LlamaIndexParseBench6 个信源在谈推荐理由:做文档解析或 RAG 应用的团队,Opus 4.8 的表格能力提升值得关注,但内容忠实度下降可能影响关键业务,建议先跑一遍 ParseBench 再决定是否升级。原文
11:51Jerry Liu@jerryjliu0精选LlamaIndex 创始人 Jerry Liu 宣布发布 ParseBench,这是一个专门测试前沿模型理解真实企业文档能力的基准。现有基准多聚焦于编程和推理,但文档理解是下游知识工作的前提。ParseBench 涵盖密集表格、图表、复杂布局等真实场景,尤其针对金融、保险、法律等行业的文档。该基准已开放论文、排行榜和完整数据集,并计划举办线上研讨会。AI产品文档理解基准测试LlamaIndex企业文档智能体推荐理由:做文档解析或企业级 AI 智能体的团队终于有了针对性的评估工具——ParseBench 填补了现有基准只测代码不测文档的空白,做文档理解相关开发的人可以直接用它验证模型效果。原文
16:08Jerry Liu@jerryjliu0精选INF 发布了两个新的开放权重模型 Infinity-Parser2-Pro (35B) 和 Infinity-Parser2-Flash (2B),在 Hugging Face 的 ParseBench 文档理解榜单上排名第一。这两个模型通过一个包含 500 万多样本的综合合成数据引擎和一种新型联合强化学习算法训练,能够同时优化文档解析、元素解析、图表解析等多个复杂任务。ParseBench 是一个专门测试真实企业文档语义理解的开放基准,涵盖表格、图表、语义格式等指标。这意味着开发者现在可以免费使用这些模型来提升文档处理能力。AI模型文档理解开放权重模型INFParseBench强化学习推荐理由:做文档解析、企业数据提取的团队可以直接用这两个模型替代商业 API,2B 的 Flash 版本适合轻量部署,35B 的 Pro 版本适合高精度场景,建议去 ParseBench 看看具体指标。原文