01:43Jerry Liu@jerryjliu0精选73°LiteParse 由 LlamaIndex 开源,平均解析速度达每页3ms,是目前最快的文档解析工具。它在 opendataloader-bench、OlmOCR-bench 和 ParseBench 三项基准测试中准确率排名第一。支持超过50种文档格式,并能提供基本边界框供编程代理拼接。该工具已获得10k GitHub stars,适合作为各种文档解析任务的首选预处理步骤。AI产品LiteParseLlamaIndex文档解析开源工具推荐理由:LlamaIndex 发布的开源文档解析器,3ms解析一页,准确率碾压三大基准,50种格式通吃,做文档处理用它先过一遍超快。原文
13:23Jerry Liu@jerryjliu0精选LlamaParse现已成为n8n的官方验证社区节点,提供Parse、Extract、Classify、Split、Retrieve五大核心功能。用户可在n8n工作流中构建文档提取流程(如贷款处理)或索引文档知识库并接入AI Agent。该节点支持将每个资源作为可调用工具,让AI Agent自主决定何时检索上下文、解析文件或提取结构化数据。AI产品LlamaParsen8nLlamaIndex文档解析智能体推荐理由:LlamaIndex的文档解析工具正式入驻n8n,能处理复杂文档的提取、分类和检索,还能让AI Agent自主调用,搭建工作流超方便。原文
15:45IT之家(博客/媒体)精选71°百度于6月22日开源Unlimited OCR模型,总参数30亿,推理时仅激活5亿参数。该模型基于DeepSeek OCR架构,采用两级视觉编码和16倍token压缩,将1024×1024的PDF图像压缩为256个视觉token。训练基于DeepSeek OCR检查点继续训练4000步,使用约200万文档样本,在8×16 A800 GPU上运行。在OmniDocBench v1.5上整体得分93.23,高于DeepSeek OCR的87.01和DeepSeek OCR 2的89.17。文本编辑距离0.038,公式CDM 92.61,表格TEDS 90.93,读序编辑距离0.045。AI模型Unlimited OCRDeepSeek OCR百度OCR文档解析5 个信源在谈推荐理由:百度开源了一个能一次性解析长文档的OCR模型,不再越处理越慢,性能还超过了DeepSeek OCR。原文
12:40小互@imxiaohu精选百度发布新 OCR 模型 UnlimitedOCR,支持单次推理解析数百页文档,同时保持高吞吐速度。在 OmniDocBench v1.5 基准上,其准确率达到 93%,比原始 DeepSeek-OCR 基线提升 6 个百分点。模型已开源,可在 Hugging Face 和 GitHub 下载。AI模型UnlimitedOCRBaiduOmniDocBenchDeepSeek-OCR文档解析8 个信源在谈推荐理由:百度新出的 UnlimitedOCR 能一次处理几百页,速度还很快,直接比 DeepSeek-OCR 高了 6 个点,真正好用。原文
03:42marktechpost@Asif Razzaq精选Datalab发布了lift,一个9B参数的开源视觉模型。该模型能将PDF与图像转换为符合给定schema的JSON结构。它使用schema约束解码确保输出有效,并训练弃权机制避免幻觉,在225份文档的基准上达到90.2%的字段准确率。AI模型Datalablift视觉模型文档解析JSON提取推荐理由:Datalab的lift模型能自动把PDF转成你需要的JSON格式,准确率90.2%,还不会瞎编字段。原文
21:03shao__meng@shao__meng精选LandingAI 的 Agentic Document Extraction (ADE) 方案允许在单次 Parse 或 Parse Jobs 调用中传入 password 参数,直接完成解密、解析和结构化输出。该功能需要启用 Zero Data Retention (ZDR) 模式,文档仅在内存中处理,不落盘、不用于训练,适合 HIPAA 等合规场景。支持 PDF、DOC、DOCX、ODT、PPT、PPTX、XLSX 格式。密码通过 HTTPS 传输,ZDR 下服务端不持久化;缺密码时返回 422 错误。AI产品LandingAIADE文档解析密码保护ZDR推荐理由:LandingAI 新功能:密码文档不用本地解密再上传,一次请求解析完成,还自带零数据留存,企业合规场景很实用。原文
01:30Jerry Liu@jerryjliu0精选LiteParse v2.1是一个纯代码的Markdown文档解析器,不使用任何VLM或AI/OCR模型。在ParseBench基准上,它超越了Qwen 3.5-9B和GLM-OCR。但在密集视觉输出上仍落后于Gemma 4和PaddleOCR-VL。对于文字/表格密集的文档,差距显著缩小。它是目前最快且完全开源免费的解析器(Apache 2.0),支持CLI/Rust/Node/Python/WASM。AI产品LiteParse文档解析ParseBenchQwen 3.5-9B开源工具2 个信源在谈推荐理由:LiteParse v2.1用纯代码搞定Markdown解析,比很多VLM还准,文字表格多的文档尤其好用,速度飞快还免费开源,赶紧去试试。原文
12:40LlamaIndex@llama_index精选LlamaIndex 今日发布了 LlamaParse Opus 4.8 版本,并公布了 ParseBench 评测结果。新版本在表格解析、语义格式和布局方面有轻微提升,但在图表解析和内容忠实度上出现小幅退步。同时,每页价格略有上涨。团队表示,在教 LLM 像人类一样阅读文档方面仍有大量优化空间。LlamaParse 依然是 AI 智能体最佳的文档摄取 API。AI产品LlamaParse文档解析ParseBenchAI智能体API推荐理由:做文档解析或构建 AI 智能体的开发者,可以看看 ParseBench 的详细数据,评估是否值得升级。原文
AITOP5月29日 08:02Opus 4.8发布:编程助手的“静默时刻”,是解放开发者,还是新门槛?🔥Anthropic 把 AI 编程的“确认键”彻底删掉了!Claude Code 搭载全新 Opus 4.8 模型,长时间任务不跑偏、不废话、不中断,像一个资深工程师一样默默干活,从功能开发到漏洞清扫全包圆,你在旁边喝茶等结果就行。过去 AI 写代码三步一问“这样可以吗”,现在它直接交完整交付物……自主编程的最后一层窗户纸,被捅破了。做自动化开发和代码审查的团队,这个模型建议直接上手,效率差距肉眼可见……
01:10Jerry Liu@jerryjliu0精选LlamaIndex创始人Jerry Liu分享了@hexapode在新加坡AI工程师大会上的90分钟工作坊内容,包含116页幻灯片,系统梳理了RAG、检索、智能体循环、文档理解等AI模式在过去3年的演变。内容涵盖朴素RAG的12个痛点、重排序与查询重写的重要性、智能体循环如何简化检索层、文档解析的持续挑战,以及现代智能体形态如工作流和深度研究。对于关注AI技术演进的开发者,这是一份宝贵的历史脉络和实战经验总结。AI产品RAG智能体文档解析检索增强LlamaIndex推荐理由:想理解RAG和AI智能体从2023到2026的完整进化路径?这份116页幻灯片是绝佳教材,做检索增强生成或智能体开发的团队值得收藏。原文
08:00LlamaIndex@llama_index精选LlamaIndex 团队构建了一个演示代理,能够从 SEC 文件中提取数据并回答金融分析师的提问,答案附带原始 PDF 页面的精确高亮引用。该代理仅用约 600 行 Next.js 代码实现,无需向量数据库,完全依赖 LiteParse 进行文档解析。金融分析师约 70% 的时间用于从 PDF 中提取数字,该工具可大幅提升效率。项目代码和博客文章已公开,供开发者参考和复用。AI产品LlamaIndexLiteParse金融分析PDF问答文档解析推荐理由:金融从业者终于有了一个轻量级工具来替代手动翻 PDF 的苦活——LlamaIndex 这个 600 行代码的代理直接解决了数据提取和引用验证的痛点,做金融分析或文档处理的团队值得点开看看。原文
07:59LlamaIndex@llama_index精选Google 发布了 Agents API,这是一个在沙盒 Linux 环境中构建和运行自定义智能体的服务。LlamaIndex 团队随即构建了一个模板,使这些智能体能够集成 LlamaParse 和 LiteParse,自动处理非结构化文档。工作流程包括配置 Git 仓库、克隆到沙盒、安装解析工具和技能,然后让智能体自主执行任务。该方案让智能体可以直接处理真实世界的复杂文档,适合需要自动化文档处理的开发者。AI产品智能体GoogleLlamaIndex文档解析沙盒环境推荐理由:Google 的 Agents API 让智能体有了安全沙盒环境,LlamaIndex 的模板直接打通了文档解析能力,做文档自动化处理的团队可以立刻上手试试。原文
07:55Jerry Liu@jerryjliu0精选LlamaIndex 发布了 LiteParse,一个免费、开源、无需模型的文档解析器,专门用于从复杂布局的财务文档(如 SEC 文件)中提取文本和表格,并返回精确的引用边界框。基于此,他们构建了一个约 600 行 Next.js 代码的尽职调查 AI 智能体演示,无需向量数据库即可回答用户问题并高亮原始 PDF 中的来源。该工具解决了金融分析师约 70% 时间用于从 PDF 中提取数字的痛点,且完全免费。LiteParse 作为智能体工作流的关键组件,为开发者提供了低成本构建文档分析应用的模板。AI产品LiteParseLlamaIndex文档解析开源/仓库金融分析推荐理由:金融团队终于有了免费开源的 PDF 解析利器——LiteParse 能处理复杂表格并给出精确引用,做尽职调查或财务分析的开发者可以直接拿来构建智能体,省去昂贵的解析费用。原文
00:30Hugging Face: Blog(博客/媒体)精选PaddleOCR 3.5 版本正式发布,新增对 Transformers 后端的支持,允许用户使用 Hugging Face 生态中的预训练模型进行 OCR 和文档解析任务。这一更新打破了原有框架对 PaddlePaddle 模型的依赖,提升了模型选择的灵活性和生态兼容性。新版本还优化了文档解析性能,支持更多语言和复杂版面分析。对于需要集成 OCR 能力的开发者来说,这是一个重要的升级,可以直接利用社区丰富的 Transformers 模型资源。AI产品OCR文档解析PaddleOCRTransformers开源/仓库推荐理由:PaddleOCR 拥抱 Transformers 生态,做文档解析和 OCR 的团队可以更灵活地选模型,不用被框架绑死,值得升级试试。原文
13:27shao__meng@shao__meng精选LandingAI 发布了一个名为“解析前”的页面级分类 API,能在昂贵的文档解析之前对 PDF 逐页打标签。它解决企业文档混杂的问题:如 50 页房贷 PDF 中混有工资单、银行流水等,直接解析会浪费算力并导致抽取幻觉。API 支持自定义类别列表、并发逐页评估、返回标签及推理说明,还能处理未知页面并建议类别。企业可根据标签丢弃无关页或分流到不同流水线,调用方式为简单的 curl POST 请求。AI产品文档解析页面分类APILandingAI企业AI推荐理由:做文档处理或企业 RAG 的团队,终于有个低成本方案在解析前先做“分诊”,避免为噪音付 OCR 和 LLM 的冤枉钱,值得直接试。原文