LandingAI 推出解析前页面级分类 API，先给 PDF 逐页打标签再分流

精选理由

做文档处理或企业 RAG 的团队，终于有个低成本方案在解析前先做“分诊”，避免为噪音付 OCR 和 LLM 的冤枉钱，值得直接试。

AI 摘要

LandingAI 发布了一个名为“解析前”的页面级分类 API，能在昂贵的文档解析之前对 PDF 逐页打标签。它解决企业文档混杂的问题：如 50 页房贷 PDF 中混有工资单、银行流水等，直接解析会浪费算力并导致抽取幻觉。API 支持自定义类别列表、并发逐页评估、返回标签及推理说明，还能处理未知页面并建议类别。企业可根据标签丢弃无关页或分流到不同流水线，调用方式为简单的 curl POST 请求。

AI 翻译 · 中文

shao__mengLandingAI 做了一个"解析前"的页面级分类 API，它在昂贵的文档解析之前先对 PDF 逐页打标签，让企业只处理真正需要的页面，把不同类型的页面分流到对应的下游流水线它要解决的真实问题企业系统接收到的文档极少是干净分类好的。典型场景：客户上传一份 50 页的房贷 PDF，里面混杂着工资单、银行流水、水电账单、护照照片。直接整份送进解析管线会造成两个结构性问题： 1. 算力浪费：只需要 2 页发票，却要为另外 48 页噪音付 …

查看原推