11:21LlamaIndex@llama_index精选LlamaParse Platform的n8n节点成为官方认证社区节点。新版本整合了文档解析、分类、提取、分割和检索功能,所有操作通过单个LlamaParse API凭证连接。每个资源可作为n8n AI Agent的可调用工具,让智能体动态决定何时检索上下文、解析文件或提取结构化数据。工作流还支持按文档类型路由、基于知识库的检索接入智能体,以及并行运行不同精度成本层级的解析输出。AI产品LlamaParsen8nLlamaIndex文档智能智能体推荐理由:LlamaParse和n8n联手,把文档解析、分类、提取都塞进低代码工作流,还能让AI Agent自动决策,不用写代码就能搭智能文档管线。原文
15:29marktechpost@Sana Hassan精选本教程基于Docling Parse工具,演示了如何从PDF文档中提取布局感知的结构化数据。首先设置Python环境并解决Colab依赖问题,生成包含文本、列、表格、矢量和嵌入图片的多页PDF。然后提取单词、字符、行及其页面坐标,渲染可视化覆盖层。最终将结果保存为JSON和CSV格式,支持阅读顺序重建和检索准备。技巧Docling ParsePDF解析布局感知结构化提取文档智能推荐理由:手把手教你用Docling Parse从PDF里提取布局信息,生成带坐标的结构化数据,适合做文档智能和RAG。原文
21:51berryxia@berryxia精选PaddleOCR 3.5 正式发布,支持 Transformers 作为推理后端,PP-OCRv5 和 PaddleOCR-VL 1.5 模型可直接在 Hugging Face 生态中运行。此前将 PaddleOCR 集成到 RAG 或 Document AI 项目需要额外搭建服务栈,现在流程大幅简化。Hugging Face 团队参与了合作,使得 OCR 工具与主流 Transformer 生态无缝对接。输出结果更精准可靠,无需依赖 LLM 来补充。AI产品PaddleOCRHugging FaceOCRTransformers文档智能推荐理由:做文档智能或 RAG 的团队终于不用在 OCR 和 Transformer 之间搭桥了,PaddleOCR 3.5 直接跑在 Hugging Face 上,省掉一堆服务栈,建议做 Document AI 的开发者点开试试。原文