09:29arXiv cs.AI@Rita-Nathalia Assaf, Tom Davot, Frédéric Lardeux, Frédéric Saubion本文提出位置图(position graphs),一种基于位置空间形式化的图推理框架。该框架使用两个严格偏序关系(分别表示水平和垂直对齐与优先)来建模离散标记的相对位置。与通用定性空间演算不同,位置图受到链条件和兼容性约束,重点聚焦行与列。文章提供了位置图一致性的充要条件,并证明在该类图上诱导子图同构问题(用于结构模式发现)是NP完全的。该工作源于文档处理,但独立于具体提取技术,专注位置约束的数学性质。论文Position GraphsPosition Spaces图推理文档处理NP完全推荐理由:这篇论文提出了位置图框架,用图结构建模离散token的空间关系,并证明了模式发现是NP完全问题,适合对图推理或文档分析感兴趣的研究者。原文
17:51Decoder@Maximilian SchreinerMistral AI推出OCR 4模型,专门用于从PDF、Word和PowerPoint等文档中读取文本。公司称在盲测中,OCR 4在72%的案例中表现优于竞品。该模型专注于文档文本提取,与现有OCR方案相比有显著提升。AI模型MistralOCR 4文档处理多模态基准测试推荐理由:Mistral新出的OCR 4在盲测里赢了七成多对手,专治PDF和PPT文字提取,文档党可以看看。原文
23:10Mistral AI@MistralAI精选73°Mistral AI 今日推出 OCR API 和 Document AI,可在 Mistral AI Studio、Amazon SageMaker、Microsoft Foundry 上直接使用,并即将集成 Snowflake Parse Document。用户也可通过单个容器自托管,确保文档不离开本地环境。该功能旨在提升文档解析和 OCR 处理能力。AI产品Mistral AIOCR APIDocument AI文档处理自托管推荐理由:Mistral AI 刚发了 OCR 和文档 AI,支持多平台部署还能自己托管,处理文档很方便。原文
20:25shao__meng@shao__meng精选72°LandingAI 将 Agentic Document Extraction 升级为两个 Agent Skills:document-extraction 提供 Markdown 结构化、JSON Schema 字段抽取、按文档类型拆分、按页分类等原子操作,document-workflows 则支持并行批处理、混合文档流水线、RAG 准备及 Snowflake 导出等功能。这些技能可被 Claude Code、Codex、Cursor 等编程智能体在对话中直接调用,无需手写脚本。其中大文件处理能力达约 1GB / 6000 页,并支持元素级坐标与置信度。AI产品LandingAIAgent Skills文档处理Claude Code编程智能体10 个信源在谈推荐理由:LandingAI 搞了两个 Agent Skills,装上后让 Claude Code 这类编程智能体直接对话里就能搭文档处理流水线,省掉你手写 API 脚本的功夫。原文
23:01AWS Machine Learning Blog@Charles MeruwomaAWS 发布了一篇博客,详细介绍了如何利用 Amazon Bedrock 的托管服务 BDA(Bedrock Data Automation)构建智能文档处理管道。该管道能自动从 PDF 等文档中提取和分析内容,并通过 Strands Agent 协调专门任务,结合 Bedrock Knowledge Base 实现多文档的上下文理解。这一架构旨在以低成本、可扩展的方式,让企业无需大量开发即可将文档处理流程智能化。对于需要处理大量合同、报告或表单的团队,这提供了一条直接可用的路径。AI产品AWSAmazon Bedrock文档处理智能体知识库2 个信源在谈推荐理由:做文档自动化或知识管理的团队,可以直接用 AWS 这套架构把 PDF 处理流程跑通,省去自己搭模型和管线的麻烦。原文
03:40AWS Machine Learning Blog@Tim Shear精选AWS博客展示了一个智能文档处理管道,结合了Amazon Bedrock的按需推理和批量推理两种选项。该管道允许用户根据文档处理时间和成本灵活选择推理模式。按需推理适用于实时处理请求,而批量推理则适合大规模文档处理。这种设计让用户能够动态调整管道以适应不同场景需求。技巧Amazon Bedrock按需推理批量推理文档处理1 个信源在谈推荐理由:AWS教你灵活管理文档处理成本与时间原文
02:42Jerry Liu@jerryjliu0LlamaIndex 团队开源了 Parse-Flow,一个可视化文档处理管道项目,旨在解决企业 AI 中从 PDF 等非结构化文档提取可靠结构化数据的难题。它集成了解析、分类、拆分和提取四个核心原语,用户可通过拖拽画布构建工作流,底层由 LlamaAgents 驱动,每一步都可观测且失败可处理。该项目已在 GitHub 开源,并附有详细架构博客。AI产品LlamaIndex文档处理开源/仓库可视化工作流结构化数据推荐理由:企业 AI 团队终于有了一个开箱即用的文档处理框架,做合同、发票、报告等非结构化数据提取的开发者可以直接上手,拖拽式设计降低了门槛,值得一试。原文
01:21LlamaIndex@llama_index72°LlamaIndex 发布了开源项目 Parse-Flow,旨在解决企业 AI 中从 PDF 等非结构化文档提取可靠结构化数据的难题。该项目提供了一个可视化工作流设计器,集成了四个核心文档处理原语:解析、分类、分割和提取。用户可以通过拖拽步骤构建管道,实时观察事件流,底层由 LlamaAgents 工作流驱动,确保每一步可观测且错误可处理。这对于处理合同、发票、报告等复杂文档的企业 AI 应用具有重要意义。AI产品LlamaIndex文档处理开源/仓库数据管道企业AI推荐理由:企业 AI 团队终于有了一个可视化的文档处理工具,能直接从 PDF 中提取结构化 JSON,做数据清洗和 RAG 管道的开发者可以直接用起来。原文
08:14Jerry Liu@jerryjliu0精选LlamaIndex 发布了 LiteParse v2,号称是世界上最快的 PDF 解析器,同时保持高精度。团队用 Rust 重写了整个库,并适配为 Python 和 Node 原生包。在 LLM QA 任务基准测试中,LiteParse 与 pdftotext 并列准确率第一,但速度更快;PyMuPDF 延迟接近,但在处理多栏、表格等复杂布局时表现不佳。LiteParse 还支持 50 多种文档格式(包括 .docx、.pptx、.xlsx),并提供 OCR 和截图工具,可直接在 AI Agent 中使用。AI产品PDF解析Rust开源/仓库LlamaIndex文档处理5 个信源在谈推荐理由:做 RAG 或文档处理的团队终于有了一个又快又准的开源选择——LiteParse 在速度和准确率上双杀现有方案,建议做 PDF 解析的开发者直接试。原文
09:48LangChain@LangChainAILangChain 团队展示了如何使用 Fleet 智能体自动化文档请求处理流程。Fleet 智能体监听 'docs-plz' 频道中的每条消息,自动进行分类,并直接打开 PR 实现文档请求。这一方案结合了 Fleet 智能体和沙箱环境,大幅减少了人工干预。用户也可以自行创建类似智能体,实现从生产力到工程任务的全面自动化。AI产品智能体自动化FleetLangChain文档处理推荐理由:LangChain 团队用 Fleet 智能体把文档请求的自动化闭环跑通了,做文档维护或工程自动化的团队可以直接参考这个模式,省去人工分类和 PR 提交流程。原文
10:22arXiv: DeepSeek@Diego Gosmar, Giovanni Zenezini精选MADP 是一个面向企业文档处理的多智能体架构,包含分类、拆分、解析、提取和验证五个专用智能体,并引入人工在环(HITL)机制和提示微调反馈继承(PFTFI)方法。在10万张发票/年的生产场景中,MADP 可减少约70%的全职人力需求;实际部署955份文档后,全管线自动化率达97%,仅3%需非AI回退。在100份文档的消融测试中,完整配置下文档级准确率达98.5%。相比传统人工处理,MADP 还减少69%的二氧化碳排放、69%的能耗和63%的水耗,并对比了 Granite-Docling、Mistral-Small、DeepSeek-OCR 等多个 LLM 后端。论文多智能体文档处理人工在环企业自动化可持续AI推荐理由:企业文档处理团队终于有了可落地的多智能体方案——MADP 用 HITL 机制平衡自动化与准确率,做发票、合同等批量文档处理的团队可以直接参考其部署结果和碳排放数据。原文
14:04Jerry Liu@jerryjliu0精选LlamaIndex CEO Jerry Liu指出,金融领域的AI智能体可分为两类:一是重复性操作工作(如发票处理、贷款发起、KYC),二是开放式研究与报告生成(如尽职调查、股票研究)。他在纽约的研讨会上强调,构建高质量文档上下文层需要严格的OCR层、评估检查和良好的人机交互审核UI/UX,因为数字的微小错误可能导致灾难性后果。他分享了演讲幻灯片和Logan的仓库,后者展示了构建带完整人机交互审核的金融文档解析流水线。LlamaIndex的核心使命是为金融等领域的AI智能体提取最高质量的文档上下文。AI产品金融AI文档处理OCR人机交互审核LlamaIndex推荐理由:金融从业者做AI智能体时,文档上下文质量直接决定成败——LlamaIndex的实践方案(OCR+评估+人机审核)值得参考,尤其是处理发票、KYC等场景的团队建议点开。原文