全部 AI 动态 · AI 热点

6月28日

01:43

Jerry Liu@jerryjliu0

精选73°

LiteParse 由 LlamaIndex 开源，平均解析速度达每页3ms，是目前最快的文档解析工具。它在 opendataloader-bench、OlmOCR-bench 和 ParseBench 三项基准测试中准确率排名第一。支持超过50种文档格式，并能提供基本边界框供编程代理拼接。该工具已获得10k GitHub stars，适合作为各种文档解析任务的首选预处理步骤。

AI产品 LiteParse LlamaIndex 文档解析开源工具

推荐理由：LlamaIndex 发布的开源文档解析器，3ms解析一页，准确率碾压三大基准，50种格式通吃，做文档处理用它先过一遍超快。

原文

6月27日

13:23

Jerry Liu@jerryjliu0

精选

LlamaParse现已成为n8n的官方验证社区节点，提供Parse、Extract、Classify、Split、Retrieve五大核心功能。用户可在n8n工作流中构建文档提取流程（如贷款处理）或索引文档知识库并接入AI Agent。该节点支持将每个资源作为可调用工具，让AI Agent自主决定何时检索上下文、解析文件或提取结构化数据。

AI产品 LlamaParse n8n LlamaIndex 文档解析智能体

推荐理由：LlamaIndex的文档解析工具正式入驻n8n，能处理复杂文档的提取、分类和检索，还能让AI Agent自主调用，搭建工作流超方便。

原文

6月26日

00:24

Firecrawl@firecrawl_dev

Firecrawl MCP 发布新功能，文档解析速度提升5倍。支持PDF、电子表格和文档，可将内容转为LLM-ready数据。支持本地运行或使用托管MCP服务器，无需API密钥即可在免费层试用。

AI产品 Firecrawl MCP 文档解析智能体 PDF

推荐理由：Firecrawl MCP 现在解析文档快了5倍，免费就能用，让你的智能体直接读PDF和表格。

原文

6月25日

15:45

15:45IT之家（博客/媒体）

精选71°

百度于6月22日开源Unlimited OCR模型，总参数30亿，推理时仅激活5亿参数。该模型基于DeepSeek OCR架构，采用两级视觉编码和16倍token压缩，将1024×1024的PDF图像压缩为256个视觉token。训练基于DeepSeek OCR检查点继续训练4000步，使用约200万文档样本，在8×16 A800 GPU上运行。在OmniDocBench v1.5上整体得分93.23，高于DeepSeek OCR的87.01和DeepSeek OCR 2的89.17。文本编辑距离0.038，公式CDM 92.61，表格TEDS 90.93，读序编辑距离0.045。

AI模型 Unlimited OCR DeepSeek OCR 百度 OCR 文档解析

推荐理由：百度开源了一个能一次性解析长文档的OCR模型，不再越处理越慢，性能还超过了DeepSeek OCR。

原文

6月24日

12:40

小互@imxiaohu

精选

百度发布新 OCR 模型 UnlimitedOCR，支持单次推理解析数百页文档，同时保持高吞吐速度。在 OmniDocBench v1.5 基准上，其准确率达到 93%，比原始 DeepSeek-OCR 基线提升 6 个百分点。模型已开源，可在 Hugging Face 和 GitHub 下载。

AI模型 UnlimitedOCR Baidu OmniDocBench DeepSeek-OCR 文档解析

推荐理由：百度新出的 UnlimitedOCR 能一次处理几百页，速度还很快，直接比 DeepSeek-OCR 高了 6 个点，真正好用。

原文

03:42

marktechpost@Asif Razzaq

精选

Datalab发布了lift，一个9B参数的开源视觉模型。该模型能将PDF与图像转换为符合给定schema的JSON结构。它使用schema约束解码确保输出有效，并训练弃权机制避免幻觉，在225份文档的基准上达到90.2%的字段准确率。

AI模型 Datalab lift 视觉模型文档解析 JSON提取

推荐理由：Datalab的lift模型能自动把PDF转成你需要的JSON格式，准确率90.2%，还不会瞎编字段。

原文

6月21日

04:25

Jerry Liu@jerryjliu0

LlamaParse是LlamaIndex推出的文档解析云服务。它针对PDF、Word等人类原生文档进行解析。用户可通过cloud.llamaindex.ai访问并集成到LlamaIndex工作流。

AI产品 LlamaParse LlamaIndex 文档解析云服务

推荐理由：想解析PDF给大模型用？试试LlamaParse，和LlamaIndex配合很顺畅。

原文

6月20日

21:03

shao__meng@shao__meng

精选

LandingAI 的 Agentic Document Extraction (ADE) 方案允许在单次 Parse 或 Parse Jobs 调用中传入 password 参数，直接完成解密、解析和结构化输出。该功能需要启用 Zero Data Retention (ZDR) 模式，文档仅在内存中处理，不落盘、不用于训练，适合 HIPAA 等合规场景。支持 PDF、DOC、DOCX、ODT、PPT、PPTX、XLSX 格式。密码通过 HTTPS 传输，ZDR 下服务端不持久化；缺密码时返回 422 错误。

AI产品 LandingAI ADE 文档解析密码保护 ZDR

推荐理由：LandingAI 新功能：密码文档不用本地解密再上传，一次请求解析完成，还自带零数据留存，企业合规场景很实用。

原文

01:30

Jerry Liu@jerryjliu0

精选

LiteParse v2.1是一个纯代码的Markdown文档解析器，不使用任何VLM或AI/OCR模型。在ParseBench基准上，它超越了Qwen 3.5-9B和GLM-OCR。但在密集视觉输出上仍落后于Gemma 4和PaddleOCR-VL。对于文字/表格密集的文档，差距显著缩小。它是目前最快且完全开源免费的解析器（Apache 2.0），支持CLI/Rust/Node/Python/WASM。

AI产品 LiteParse 文档解析 ParseBench Qwen 3.5-9B 开源工具

推荐理由：LiteParse v2.1用纯代码搞定Markdown解析，比很多VLM还准，文字表格多的文档尤其好用，速度飞快还免费开源，赶紧去试试。

原文

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

6月13日

13:13

LlamaIndex@llama_index

LlamaIndex 联合创始人兼 CEO Jerry Liu 将在 6 月 15-18 日于旧金山举行的 Databricks Data+AI Summit 上发表两场演讲：一场关于使用长周期 AI 智能体自动化文档处理，另一场参与智能体栈创始人圆桌讨论（与 LangChain、CrewAI、Agno 及 Databricks）。团队还将在 #137 展位演示 LlamaParse 文档解析工具。

AI产品 LlamaIndex LlamaParse Databricks Data+AI Summit 文档解析

推荐理由：LlamaIndex 展示文档解析新方案

原文

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

6月10日

07:16

Jerry Liu@jerryjliu0

LlamaIndex 团队开源了基于 Rust 的文档解析器 LiteParse，声称是地球上最快的文档解析方案。其速度之快，以至于 Claude Fable 5 都认为不真实。该工具专为 AI 文档工作负载设计，可大幅提升文档处理效率。项目已在 GitHub 上开源，适合需要高性能文档解析的开发者。

AI产品文档解析 Rust 开源/仓库 LlamaIndex 高性能

推荐理由：做文档解析或 AI 数据管线的开发者，这个 Rust 实现的解析器速度惊人，值得一试，能显著提升你的文档处理效率。

原文

07:12

Jerry Liu@jerryjliu0

LlamaIndex 在 LlamaParse 中推出了细粒度边界框功能，能够为文档中的每个单词、行和表格单元格提供精确的视觉坐标。这使得 AI 代理在提取信息时，可以追溯到文档中的具体位置，而不仅仅是段落或页面。该功能专为审计、合规审查和需要验证的 AI 工作流设计，解决了知识工作自动化中决策可审计性的关键痛点。用户现在可以在 cloud.llamaindex.ai 上体验。

AI产品 LlamaParse 文档解析审计溯源合规边界框

推荐理由：做文档解析、合规审计或金融分析的团队终于有了可验证的溯源方案——LlamaParse 的逐词边界框让 AI 提取的每个数字都能精确定位到原文，审计流程不再靠‘大概在这页’糊弄，建议直接试用。

原文

02:48

LlamaIndex@llama_index

LlamaIndex 宣布在 LlamaParse 中推出 Granular Bounding Boxes 功能，能够为文档中每个提取值提供词、行、单元格级别的精确坐标。这意味着审计或合规团队可以追踪每个数值的原始来源，而不仅仅是段落或表格块。该功能专为审计工作流、合规审查以及任何需要验证的管道设计，解决了 AI 提取结果难以追溯的问题。用户现在可以查看每个值在文档中的确切位置，从而建立完整的可验证溯源链。

AI产品文档解析溯源/审计 LlamaParse 合规 AI 产品

推荐理由：做合规、审计或金融文档处理的团队终于有了可追溯的 AI 提取方案——LlamaParse 的精确坐标让每个数值都有据可查，建议直接集成到你的文档处理管道中。

原文

6月5日

01:22

LlamaIndex@llama_index

72°

LlamaIndex 在 CVPR 2026 上发布了 ParseBench，这是首个专为 AI 智能体设计的文档解析基准测试。该基准包含 2000 多页人工验证的页面、167K+ 测试规则，覆盖表格、图表、忠实度、格式和接地性五个维度。团队认为文档理解是 AGI 完备问题，因为智能体无法正确读取文档就无法有效行动，而真实企业表格的解析难度远超表面所见。ParseBench 完全开源，旨在推动文档解析能力的发展。

AI产品文档解析智能体基准测试开源/仓库 LlamaIndex

推荐理由：做文档解析或构建 AI 智能体的团队终于有了一个标准化的评测工具——ParseBench 覆盖了企业级表格、图表等真实难点，建议直接拿来评估你的解析管线。

原文

6月2日

09:58

LlamaIndex@llama_index

LlamaIndex 团队宣布将参加 Snowflake Summit 2026，在展台与参会者交流。他们聚焦于解析复杂文档和让智能体以人类级精度读取非结构化上下文。这标志着 AI 基础设施市场的持续火热，也展示了 LlamaIndex 在文档解析和智能体应用方面的最新进展。

AI产品文档解析智能体非结构化数据 LlamaIndex Snowflake Summit

推荐理由：做文档解析和智能体开发的团队值得关注——LlamaIndex 在 Snowflake Summit 上展示的复杂文档解析能力，能直接提升非结构化数据处理效率，建议开发者留意后续技术分享。

原文

6月1日

22:47

Dify@dify_ai

PaddleOCR 和 ERNIE-Image 作为官方插件正式登陆 Dify Marketplace。用户现在可以在 Dify 工作流中直接调用文档解析（支持图片、PDF、多语言文档）和图像生成功能，无需额外部署。PaddleOCR 基于 PP-OCRv5 等模型，输出结构化数据用于 RAG 等下游任务；ERNIE-Image 提供免费图像生成，支持 Turbo 模式和 OpenAI 风格 API。这降低了构建文档智能和 AIGC 类 AI Agent 的门槛。

AI产品 Dify PaddleOCR ERNIE-Image 文档解析图像生成

推荐理由：做 RAG 应用或需要文档解析的团队，现在可以直接在 Dify 工作流里用 PaddleOCR 把扫描件变成结构化数据，再配合 ERNIE-Image 生成配图，一条 workflow 搞定。建议试试这个插件组合。

原文

5月30日

12:09

Jerry Liu@jerryjliu0

LlamaIndex 团队与 Google 合作，发布了一个基于 LlamaParse 和 Gemini API 新托管代理的模板。该模板构建了一个能够处理非结构化文档的智能代理，利用 LlamaParse 进行文档解析，再通过 Gemini 的托管代理进行后续处理。这一合作将文档解析与强大的 AI 模型结合，为处理复杂文档提供了高效解决方案。开发者可以直接使用该模板快速搭建文档处理应用。

AI产品文档解析 Gemini LlamaIndex 托管代理模板

推荐理由：做文档解析和 RAG 的团队可以直接用这个模板，LlamaParse 处理非结构化文档 + Gemini 托管代理，省去自己搭建的麻烦，值得试试。

原文

03:57

Google AI Developers@googleaidevs

LlamaIndex 团队基于 Google 新发布的 Agents API 构建了一个模板，该模板利用 LlamaParse 和 LiteParse 让智能体在沙箱 Linux 环境中自动处理非结构化文档。用户只需配置 Git 仓库、克隆到沙箱、安装相关 CLI 和 SDK，即可让代理自主完成文档解析与输出。这一方案解决了真实世界文档杂乱难处理的痛点，为开发者提供了可直接使用的自动化文档处理方案。相关代码已开源在 GitHub 上。

AI产品智能体文档解析 LlamaParse Gemini API 开源/仓库

推荐理由：做文档解析或自动化流程的开发者可以直接用这个模板，省去从零搭建的麻烦——LlamaParse 加持的智能体在 Gemini 沙箱里跑，效果值得一试。

原文

00:41

berryxia@berryxia

72°

百度 PaddlePaddle 发布了 PaddleOCR-VL 1.6，在 OmniDocBench 上达到 96.33% 的 SOTA 成绩，超越开源和商业方案。该版本显著提升了表格识别、稀有字符、印章检测和图表理解能力，尤其适合金融合同、法律文件等复杂文档。与 1.5 版本完全架构兼容，零迁移成本即可使用。高精度解析能力直接提升了 RAG 系统的输入质量，降低了文档智能的门槛。

AI产品 OCR 文档解析 PaddleOCR-VL RAG 法律金融

推荐理由：文档解析是 RAG 和 LLM 应用的关键瓶颈，PaddleOCR-VL 1.6 在复杂场景（表格、印章、稀有字符）上大幅提升，做法律、金融文档处理的团队可以直接替换升级，零迁移成本值得一试。

原文

5月29日

12:40

LlamaIndex@llama_index

精选

LlamaIndex 今日发布了 LlamaParse Opus 4.8 版本，并公布了 ParseBench 评测结果。新版本在表格解析、语义格式和布局方面有轻微提升，但在图表解析和内容忠实度上出现小幅退步。同时，每页价格略有上涨。团队表示，在教 LLM 像人类一样阅读文档方面仍有大量优化空间。LlamaParse 依然是 AI 智能体最佳的文档摄取 API。

AI产品 LlamaParse 文档解析 ParseBench AI智能体 API

推荐理由：做文档解析或构建 AI 智能体的开发者，可以看看 ParseBench 的详细数据，评估是否值得升级。

原文

5月27日

11:37

@OpenAIDevs@OpenAIDevs

OpenAI 在 Codex 中集成了 GPT-5.5 模型，帮助 Databricks 更可靠地解析复杂客户文档。这一改进提升了文档处理的准确性和效率，尤其适用于需要高精度提取信息的场景。该更新展示了 GPT-5.5 在专业应用中的实际价值，为数据团队提供了更强大的工具。

AI产品 GPT-5.5 Codex Databricks 文档解析 AI产品

推荐理由：对于处理复杂文档的数据工程师和 AI 开发者，GPT-5.5 在 Codex 中的集成直接提升了解析可靠性，值得在 Databricks 工作流中尝试。

原文

5月26日

01:10

Jerry Liu@jerryjliu0

精选

LlamaIndex创始人Jerry Liu分享了@hexapode在新加坡AI工程师大会上的90分钟工作坊内容，包含116页幻灯片，系统梳理了RAG、检索、智能体循环、文档理解等AI模式在过去3年的演变。内容涵盖朴素RAG的12个痛点、重排序与查询重写的重要性、智能体循环如何简化检索层、文档解析的持续挑战，以及现代智能体形态如工作流和深度研究。对于关注AI技术演进的开发者，这是一份宝贵的历史脉络和实战经验总结。

AI产品 RAG 智能体文档解析检索增强 LlamaIndex

推荐理由：想理解RAG和AI智能体从2023到2026的完整进化路径？这份116页幻灯片是绝佳教材，做检索增强生成或智能体开发的团队值得收藏。

原文

5月25日

21:59

LlamaIndex@llama_index

精选

LlamaParse 新增对苹果默认图片格式 HEIC 的原生解析支持。该格式常见于企业文件系统中的白板照片、扫描文档和 iPhone 截图。用户无需事先将 HEIC 转换为 JPEG，可直接传入 .heic 文件进行解析。该功能减少了文档预处理步骤。

AI产品 LlamaParse HEIC LlamaIndex 文档解析

推荐理由：LlamaParse 免去转码直接读 HEIC

原文

5月23日

09:12

LlamaIndex@llama_index

LlamaIndex 推出了 ParseBench，这是首个专门为 AI 智能体设计的文档 OCR 基准测试。现有的基准测试无法满足 AI 智能体在实际生产环境中的需求，ParseBench 填补了这一空白。该基准测试旨在评估文档解析器在真实场景下的表现，帮助开发者判断其是否适合投入生产。LlamaIndex 将通过线上研讨会详细解读 ParseBench 的设计原理和应用方法。

AI产品文档解析 OCR 基准测试 AI智能体 LlamaIndex

推荐理由：做文档解析或 AI 智能体开发的团队，终于有了一个贴近真实生产环境的评估标准，建议关注 ParseBench 的细节，看看你的解析器能否通过考验。

原文

5月21日

08:00

LlamaIndex@llama_index

精选

LlamaIndex 团队构建了一个演示代理，能够从 SEC 文件中提取数据并回答金融分析师的提问，答案附带原始 PDF 页面的精确高亮引用。该代理仅用约 600 行 Next.js 代码实现，无需向量数据库，完全依赖 LiteParse 进行文档解析。金融分析师约 70% 的时间用于从 PDF 中提取数字，该工具可大幅提升效率。项目代码和博客文章已公开，供开发者参考和复用。

AI产品 LlamaIndex LiteParse 金融分析 PDF问答文档解析

推荐理由：金融从业者终于有了一个轻量级工具来替代手动翻 PDF 的苦活——LlamaIndex 这个 600 行代码的代理直接解决了数据提取和引用验证的痛点，做金融分析或文档处理的团队值得点开看看。

原文

07:59

LlamaIndex@llama_index

精选

Google 发布了 Agents API，这是一个在沙盒 Linux 环境中构建和运行自定义智能体的服务。LlamaIndex 团队随即构建了一个模板，使这些智能体能够集成 LlamaParse 和 LiteParse，自动处理非结构化文档。工作流程包括配置 Git 仓库、克隆到沙盒、安装解析工具和技能，然后让智能体自主执行任务。该方案让智能体可以直接处理真实世界的复杂文档，适合需要自动化文档处理的开发者。

AI产品智能体 Google LlamaIndex 文档解析沙盒环境

推荐理由：Google 的 Agents API 让智能体有了安全沙盒环境，LlamaIndex 的模板直接打通了文档解析能力，做文档自动化处理的团队可以立刻上手试试。

原文

07:59

Jerry Liu@jerryjliu0

LlamaIndex 创始人 Jerry Liu 宣布，LlamaParse 和 LiteParse 现在可以通过 MCP（模型上下文协议）或技能（skill）方式，以极简配置集成到任意 AI 智能体中。LlamaParse 提供高质量文档处理与提取能力，可通过 MCP 设置快速接入；LiteParse 则支持一行代码安装为智能体技能，得益于 Vercel 的技能工具。这一更新让开发者无需复杂集成即可为智能体添加强大的文档解析功能，显著降低了开发门槛。

AI产品 LlamaParse LiteParse MCP/工具智能体文档解析

推荐理由：做文档解析或智能体集成的开发者，现在可以用 MCP 或一行代码把 LlamaParse/LiteParse 接入自己的智能体，省去大量配置工作，值得直接试试。

原文

07:55

Jerry Liu@jerryjliu0

精选

LlamaIndex 发布了 LiteParse，一个免费、开源、无需模型的文档解析器，专门用于从复杂布局的财务文档（如 SEC 文件）中提取文本和表格，并返回精确的引用边界框。基于此，他们构建了一个约 600 行 Next.js 代码的尽职调查 AI 智能体演示，无需向量数据库即可回答用户问题并高亮原始 PDF 中的来源。该工具解决了金融分析师约 70% 时间用于从 PDF 中提取数字的痛点，且完全免费。LiteParse 作为智能体工作流的关键组件，为开发者提供了低成本构建文档分析应用的模板。

AI产品 LiteParse LlamaIndex 文档解析开源/仓库金融分析

推荐理由：金融团队终于有了免费开源的 PDF 解析利器——LiteParse 能处理复杂表格并给出精确引用，做尽职调查或财务分析的开发者可以直接拿来构建智能体，省去昂贵的解析费用。

原文

5月20日

20:14

Jerry Liu@jerryjliu0

Google AI 通过 Gemini API 推出了 Managed Agents 服务，这是对 Anthropic Managed Agents 的回应。该服务基于新的 Antigravity 智能体（由 Gemini 3.5 Flash 驱动），号称是面向开发者最具成本效益的通用智能体沙箱。LlamaIndex 团队已为 Gemini Managed Agents 构建了第一天支持，通过 LlamaParse 和 LiteParse 让智能体能够解析 PDF 等非结构化文档。开发者可以配置 Git 仓库，将数据和输出存入其中，智能体在沙箱内自动安装工具并处理文档任务。这为需要处理复杂真实世界文档的开发者提供了一个低成本、自动化的解决方案。

AI产品智能体 Google Gemini 文档解析 LlamaIndex

推荐理由：Google 终于推出了自己的托管智能体服务，而且基于 Gemini 3.5 Flash 成本极低，做文档处理的团队可以直接用 LlamaIndex 的模板快速上手，省去自己搭建解析流程的麻烦。

原文

5月19日

12:31

LlamaIndex@llama_index

LlamaIndex 推出了 ParseBench，这是首个专门为 AI 智能体设计的文档 OCR 基准测试。现有的基准测试无法满足 AI 智能体在文档解析方面的实际需求，ParseBench 填补了这一空白。该基准测试将帮助开发者评估文档解析器在生产环境中的真实表现。LlamaIndex 将通过线上研讨会详细解读其背后的原理和方法。

AI产品文档解析 OCR 基准测试 AI智能体 LlamaIndex

推荐理由：做文档解析或 AI 智能体应用的开发者终于有了针对性的评估工具，ParseBench 能帮你判断解析器是否真的 ready for production，建议关注后续研讨会细节。

原文

00:30

00:30Hugging Face: Blog（博客/媒体）

精选

PaddleOCR 3.5 版本正式发布，新增对 Transformers 后端的支持，允许用户使用 Hugging Face 生态中的预训练模型进行 OCR 和文档解析任务。这一更新打破了原有框架对 PaddlePaddle 模型的依赖，提升了模型选择的灵活性和生态兼容性。新版本还优化了文档解析性能，支持更多语言和复杂版面分析。对于需要集成 OCR 能力的开发者来说，这是一个重要的升级，可以直接利用社区丰富的 Transformers 模型资源。

AI产品 OCR 文档解析 PaddleOCR Transformers 开源/仓库

推荐理由：PaddleOCR 拥抱 Transformers 生态，做文档解析和 OCR 的团队可以更灵活地选模型，不用被框架绑死，值得升级试试。

原文

5月14日

13:27

shao__meng@shao__meng

精选

LandingAI 发布了一个名为“解析前”的页面级分类 API，能在昂贵的文档解析之前对 PDF 逐页打标签。它解决企业文档混杂的问题：如 50 页房贷 PDF 中混有工资单、银行流水等，直接解析会浪费算力并导致抽取幻觉。API 支持自定义类别列表、并发逐页评估、返回标签及推理说明，还能处理未知页面并建议类别。企业可根据标签丢弃无关页或分流到不同流水线，调用方式为简单的 curl POST 请求。

AI产品文档解析页面分类 API LandingAI 企业AI

推荐理由：做文档处理或企业 RAG 的团队，终于有个低成本方案在解析前先做“分诊”，避免为噪音付 OCR 和 LLM 的冤枉钱，值得直接试。

原文