精选 AI 资讯 · AI 热点

6月28日

01:43

01:43

Jerry Liu@jerryjliu0

精选73°

LiteParse 由 LlamaIndex 开源，平均解析速度达每页3ms，是目前最快的文档解析工具。它在 opendataloader-bench、OlmOCR-bench 和 ParseBench 三项基准测试中准确率排名第一。支持超过50种文档格式，并能提供基本边界框供编程代理拼接。该工具已获得10k GitHub stars，适合作为各种文档解析任务的首选预处理步骤。

AI产品 LiteParse LlamaIndex 文档解析开源工具

推荐理由：LlamaIndex 发布的开源文档解析器，3ms解析一页，准确率碾压三大基准，50种格式通吃，做文档处理用它先过一遍超快。

6月27日

13:23

13:23

Jerry Liu@jerryjliu0

精选

LlamaParse现已成为n8n的官方验证社区节点，提供Parse、Extract、Classify、Split、Retrieve五大核心功能。用户可在n8n工作流中构建文档提取流程（如贷款处理）或索引文档知识库并接入AI Agent。该节点支持将每个资源作为可调用工具，让AI Agent自主决定何时检索上下文、解析文件或提取结构化数据。

AI产品 LlamaParse n8n LlamaIndex 文档解析智能体

推荐理由：LlamaIndex的文档解析工具正式入驻n8n，能处理复杂文档的提取、分类和检索，还能让AI Agent自主调用，搭建工作流超方便。

6月25日

15:45

15:45IT之家（博客/媒体）

精选71°

百度于6月22日开源Unlimited OCR模型，总参数30亿，推理时仅激活5亿参数。该模型基于DeepSeek OCR架构，采用两级视觉编码和16倍token压缩，将1024×1024的PDF图像压缩为256个视觉token。训练基于DeepSeek OCR检查点继续训练4000步，使用约200万文档样本，在8×16 A800 GPU上运行。在OmniDocBench v1.5上整体得分93.23，高于DeepSeek OCR的87.01和DeepSeek OCR 2的89.17。文本编辑距离0.038，公式CDM 92.61，表格TEDS 90.93，读序编辑距离0.045。

AI模型 Unlimited OCR DeepSeek OCR 百度 OCR 文档解析

推荐理由：百度开源了一个能一次性解析长文档的OCR模型，不再越处理越慢，性能还超过了DeepSeek OCR。

6月24日

12:40

12:40

小互@imxiaohu

精选

百度发布新 OCR 模型 UnlimitedOCR，支持单次推理解析数百页文档，同时保持高吞吐速度。在 OmniDocBench v1.5 基准上，其准确率达到 93%，比原始 DeepSeek-OCR 基线提升 6 个百分点。模型已开源，可在 Hugging Face 和 GitHub 下载。

AI模型 UnlimitedOCR Baidu OmniDocBench DeepSeek-OCR 文档解析

推荐理由：百度新出的 UnlimitedOCR 能一次处理几百页，速度还很快，直接比 DeepSeek-OCR 高了 6 个点，真正好用。

03:42

03:42

marktechpost@Asif Razzaq

精选

Datalab发布了lift，一个9B参数的开源视觉模型。该模型能将PDF与图像转换为符合给定schema的JSON结构。它使用schema约束解码确保输出有效，并训练弃权机制避免幻觉，在225份文档的基准上达到90.2%的字段准确率。

AI模型 Datalab lift 视觉模型文档解析 JSON提取

推荐理由：Datalab的lift模型能自动把PDF转成你需要的JSON格式，准确率90.2%，还不会瞎编字段。

6月20日

21:03

21:03

shao__meng@shao__meng

精选

LandingAI 的 Agentic Document Extraction (ADE) 方案允许在单次 Parse 或 Parse Jobs 调用中传入 password 参数，直接完成解密、解析和结构化输出。该功能需要启用 Zero Data Retention (ZDR) 模式，文档仅在内存中处理，不落盘、不用于训练，适合 HIPAA 等合规场景。支持 PDF、DOC、DOCX、ODT、PPT、PPTX、XLSX 格式。密码通过 HTTPS 传输，ZDR 下服务端不持久化；缺密码时返回 422 错误。

AI产品 LandingAI ADE 文档解析密码保护 ZDR

推荐理由：LandingAI 新功能：密码文档不用本地解密再上传，一次请求解析完成，还自带零数据留存，企业合规场景很实用。

01:30

01:30

Jerry Liu@jerryjliu0

精选

LiteParse v2.1是一个纯代码的Markdown文档解析器，不使用任何VLM或AI/OCR模型。在ParseBench基准上，它超越了Qwen 3.5-9B和GLM-OCR。但在密集视觉输出上仍落后于Gemma 4和PaddleOCR-VL。对于文字/表格密集的文档，差距显著缩小。它是目前最快且完全开源免费的解析器（Apache 2.0），支持CLI/Rust/Node/Python/WASM。

AI产品 LiteParse 文档解析 ParseBench Qwen 3.5-9B 开源工具

推荐理由：LiteParse v2.1用纯代码搞定Markdown解析，比很多VLM还准，文字表格多的文档尤其好用，速度飞快还免费开源，赶紧去试试。

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

6月1日

00:09

AITOP6月1日 00:09

OpenAI 发起“Codex for Open Source”：免费赠送 6 个月 Pro 订阅，开源维护者能否迎来 AI 变革？

5月29日

12:40

12:40

LlamaIndex@llama_index

精选

LlamaIndex 今日发布了 LlamaParse Opus 4.8 版本，并公布了 ParseBench 评测结果。新版本在表格解析、语义格式和布局方面有轻微提升，但在图表解析和内容忠实度上出现小幅退步。同时，每页价格略有上涨。团队表示，在教 LLM 像人类一样阅读文档方面仍有大量优化空间。LlamaParse 依然是 AI 智能体最佳的文档摄取 API。

AI产品 LlamaParse 文档解析 ParseBench AI智能体 API

推荐理由：做文档解析或构建 AI 智能体的开发者，可以看看 ParseBench 的详细数据，评估是否值得升级。

08:02

AITOP5月29日 08:02

Opus 4.8发布：编程助手的“静默时刻”，是解放开发者，还是新门槛？🔥Anthropic 把 AI 编程的“确认键”彻底删掉了！Claude Code 搭载全新 Opus 4.8 模型，长时间任务不跑偏、不废话、不中断，像一个资深工程师一样默默干活，从功能开发到漏洞清扫全包圆，你在旁边喝茶等结果就行。过去 AI 写代码三步一问“这样可以吗”，现在它直接交完整交付物……自主编程的最后一层窗户纸，被捅破了。做自动化开发和代码审查的团队，这个模型建议直接上手，效率差距肉眼可见……

Opus 4.8发布：编程助手的“静默时刻”，是解放开发者，还是新门槛？

5月26日

01:10

01:10

Jerry Liu@jerryjliu0

精选

LlamaIndex创始人Jerry Liu分享了@hexapode在新加坡AI工程师大会上的90分钟工作坊内容，包含116页幻灯片，系统梳理了RAG、检索、智能体循环、文档理解等AI模式在过去3年的演变。内容涵盖朴素RAG的12个痛点、重排序与查询重写的重要性、智能体循环如何简化检索层、文档解析的持续挑战，以及现代智能体形态如工作流和深度研究。对于关注AI技术演进的开发者，这是一份宝贵的历史脉络和实战经验总结。

AI产品 RAG 智能体文档解析检索增强 LlamaIndex

推荐理由：想理解RAG和AI智能体从2023到2026的完整进化路径？这份116页幻灯片是绝佳教材，做检索增强生成或智能体开发的团队值得收藏。

5月21日

08:00

08:00

LlamaIndex@llama_index

精选

LlamaIndex 团队构建了一个演示代理，能够从 SEC 文件中提取数据并回答金融分析师的提问，答案附带原始 PDF 页面的精确高亮引用。该代理仅用约 600 行 Next.js 代码实现，无需向量数据库，完全依赖 LiteParse 进行文档解析。金融分析师约 70% 的时间用于从 PDF 中提取数字，该工具可大幅提升效率。项目代码和博客文章已公开，供开发者参考和复用。

AI产品 LlamaIndex LiteParse 金融分析 PDF问答文档解析

推荐理由：金融从业者终于有了一个轻量级工具来替代手动翻 PDF 的苦活——LlamaIndex 这个 600 行代码的代理直接解决了数据提取和引用验证的痛点，做金融分析或文档处理的团队值得点开看看。

07:59

07:59

LlamaIndex@llama_index

精选

Google 发布了 Agents API，这是一个在沙盒 Linux 环境中构建和运行自定义智能体的服务。LlamaIndex 团队随即构建了一个模板，使这些智能体能够集成 LlamaParse 和 LiteParse，自动处理非结构化文档。工作流程包括配置 Git 仓库、克隆到沙盒、安装解析工具和技能，然后让智能体自主执行任务。该方案让智能体可以直接处理真实世界的复杂文档，适合需要自动化文档处理的开发者。

AI产品智能体 Google LlamaIndex 文档解析沙盒环境

推荐理由：Google 的 Agents API 让智能体有了安全沙盒环境，LlamaIndex 的模板直接打通了文档解析能力，做文档自动化处理的团队可以立刻上手试试。

07:55

07:55

Jerry Liu@jerryjliu0

精选

LlamaIndex 发布了 LiteParse，一个免费、开源、无需模型的文档解析器，专门用于从复杂布局的财务文档（如 SEC 文件）中提取文本和表格，并返回精确的引用边界框。基于此，他们构建了一个约 600 行 Next.js 代码的尽职调查 AI 智能体演示，无需向量数据库即可回答用户问题并高亮原始 PDF 中的来源。该工具解决了金融分析师约 70% 时间用于从 PDF 中提取数字的痛点，且完全免费。LiteParse 作为智能体工作流的关键组件，为开发者提供了低成本构建文档分析应用的模板。

AI产品 LiteParse LlamaIndex 文档解析开源/仓库金融分析

推荐理由：金融团队终于有了免费开源的 PDF 解析利器——LiteParse 能处理复杂表格并给出精确引用，做尽职调查或财务分析的开发者可以直接拿来构建智能体，省去昂贵的解析费用。

5月19日

00:30

00:30Hugging Face: Blog（博客/媒体）

精选

PaddleOCR 3.5 版本正式发布，新增对 Transformers 后端的支持，允许用户使用 Hugging Face 生态中的预训练模型进行 OCR 和文档解析任务。这一更新打破了原有框架对 PaddlePaddle 模型的依赖，提升了模型选择的灵活性和生态兼容性。新版本还优化了文档解析性能，支持更多语言和复杂版面分析。对于需要集成 OCR 能力的开发者来说，这是一个重要的升级，可以直接利用社区丰富的 Transformers 模型资源。

AI产品 OCR 文档解析 PaddleOCR Transformers 开源/仓库

推荐理由：PaddleOCR 拥抱 Transformers 生态，做文档解析和 OCR 的团队可以更灵活地选模型，不用被框架绑死，值得升级试试。

5月14日

13:27

13:27

shao__meng@shao__meng

精选

LandingAI 发布了一个名为“解析前”的页面级分类 API，能在昂贵的文档解析之前对 PDF 逐页打标签。它解决企业文档混杂的问题：如 50 页房贷 PDF 中混有工资单、银行流水等，直接解析会浪费算力并导致抽取幻觉。API 支持自定义类别列表、并发逐页评估、返回标签及推理说明，还能处理未知页面并建议类别。企业可根据标签丢弃无关页或分流到不同流水线，调用方式为简单的 curl POST 请求。

AI产品文档解析页面分类 API LandingAI 企业AI

推荐理由：做文档处理或企业 RAG 的团队，终于有个低成本方案在解析前先做“分诊”，避免为噪音付 OCR 和 LLM 的冤枉钱，值得直接试。