全部 AI 动态 · AI 热点

6月22日

03:36

03:36

Jerry Liu@jerryjliu0

精选74°

LiteParse v2.1 发布，可将PDF转换为Markdown，速度比Screen Studio放大动作还快。它在olmOCR0-bench、opendataloader-bench、ParseBench三个基准测试上准确率超过pymupdf4llm、opendataloader等工具。完全开源（Apache 2.0），支持CLI、Rust、Node、Python、WASM。可从LlamaIndex官网或GitHub获取。

AI产品 LiteParse LlamaIndex PDF解析开源 Markdown

推荐理由：LiteParse v2.1又快又准，开源免费，解析PDF转Markdown比同类强，值得一试。

6月19日

03:37

03:37

Jerry Liu@jerryjliu0

LlamaIndex 推出 LiteParse v2.1，号称全球最快的 PDF 转 Markdown 解析器。在 olmOCR0-bench、opendataloader-bench 和 ParseBench 三个标准化基准上，其准确率超过 pymupdf4llm、opendataloader、pdf-inspector、markitdown 等所有开源无模型解析器。该工具完全开源（Apache 2.0）且免费，支持 CLI、Rust、Node、Python 和 WASM 调用，也可作为一键 Agent Skill 安装。

AI产品 LiteParse LlamaIndex PDF解析 Markdown转换开源工具

推荐理由：LlamaIndex 出了个新工具 LiteParse v2.1，专门把 PDF 转成 Markdown，速度最快，准确率还吊打同类开源方案，免费直接用。

6月17日

23:08

23:08

Jerry Liu@jerryjliu0

精选

LlamaIndex团队为Claude Code开发了LiteParse技能，通过避免重复解析、关闭OCR、减少grep操作等优化，使PDF处理成本降低37%，准确率提升。LiteParse完全免费开源，可直接集成使用。博客和代码均已在GitHub上公开。

技巧 Claude Claude Code LiteParse LlamaIndex PDF解析

推荐理由：LlamaIndex搞了个小技巧，让Claude读PDF省了37%的钱，还更准。用的是开源LiteParse，直接就能用。

09:42

09:42

berryxia@berryxia

Firecrawl 去掉了 API key 门槛，现在无需注册即可直接使用其搜索网页、抓取页面、解析 PDF 并将 PDF 转为干净 markdown 的功能。该服务同时支持 MCP、CLI 和 API 三种接入方式。开发者可零门槛获取网页内容和 PDF 解析，专注于 Agent 逻辑开发，无需先处理注册和限流。这将大幅降低 Agent 项目在数据层的实验和原型速度。

AI产品 Firecrawl 智能体 MCP/工具网页抓取 PDF解析

推荐理由：Firecrawl 现在不用注册就能直接用，搜网页爬 PDF 一条龙，做 Agent 工具链省事多了。

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

15:29

15:29

marktechpost@Sana Hassan

精选

本教程基于Docling Parse工具，演示了如何从PDF文档中提取布局感知的结构化数据。首先设置Python环境并解决Colab依赖问题，生成包含文本、列、表格、矢量和嵌入图片的多页PDF。然后提取单词、字符、行及其页面坐标，渲染可视化覆盖层。最终将结果保存为JSON和CSV格式，支持阅读顺序重建和检索准备。

技巧 Docling Parse PDF解析布局感知结构化提取文档智能

推荐理由：手把手教你用Docling Parse从PDF里提取布局信息，生成带坐标的结构化数据，适合做文档智能和RAG。

14:13

14:13

LlamaIndex@llama_index

LlamaParse 保留合同文档的层次结构，使用语义推理识别支付条款、续约条件、终止条款等关键字段，无论其如何起草。与遗留 OCR 不同，它能够理解合同语义而非仅扫描文本。最终输出 schema 对齐的结构化数据，可直接供下游系统使用。

AI产品 LlamaParse LlamaIndex 合同提取 PDF解析结构化数据

推荐理由：LlamaParse 专治合同 PDF 提取难题，能自动识别支付条款、续约条件等关键字段，比传统 OCR 更智能。

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

6月2日

10:52

10:52

Jerry Liu@jerryjliu0

LlamaIndex 创始人 Jerry Liu 宣布 Liteparse 完成重大升级，成为目前最快的 PDF 解析器。新版用 Rust 重写了整个库，并适配为 Python 和 Node 原生包，支持 50 多种文档类型。除了提取文本，Liteparse 还能输出边界框，让编码代理可以精确追溯源文档。团队正在开发 Markdown 支持，并鼓励用户提交 issue 和 PR。

AI产品 PDF解析 Rust 开源/仓库 LlamaIndex AI代理

推荐理由：做文档解析或 AI 代理的开发者终于有了一个又快又准的开源选择——Liteparse 的边界框输出让审计追踪变得简单，值得直接试。

5月30日

11:30

11:30

Jerry Liu@jerryjliu0

LlamaIndex 推出 LiteParse WASM 包，可在浏览器、Cloudflare Workers 等边缘环境毫秒级解析 PDF。该包轻量、最小化，基于 WebAssembly，25 行代码即可实现 PDF 文本提取和页数统计。开发者可直接在 Cloudflare Workers 上运行，无需后端服务器。项目已在 GitHub 开源，并提供 Cloudflare 入门模板。

AI产品 PDF解析 WASM 边缘计算 Cloudflare Workers LlamaIndex

推荐理由：做浏览器端或边缘计算 PDF 处理的开发者，终于有了一个轻量、快速、可随处部署的解析方案，建议直接试试 Cloudflare 模板。

00:43

00:43

Jerry Liu@jerryjliu0

精选

LlamaIndex推出LiteParse v2，声称这是全球最快的PDF解析器，速度比pymupdf、pypdf等开源方案更快，准确度也更高。团队将整个库用Rust重写，并适配为Python和Node的原生包。LiteParse v2支持50多种文档类型，可直接在AI agent中触发或安装使用。项目已在GitHub开源，博客文章介绍了详细用法。

AI产品 LiteParse LlamaIndex PDF解析 Rust AI agent

推荐理由：PDF解析比pymupdf快一倍，还支持50种文档

5月29日

08:14

08:14

Jerry Liu@jerryjliu0

精选

LlamaIndex 发布了 LiteParse v2，号称是世界上最快的 PDF 解析器，同时保持高精度。团队用 Rust 重写了整个库，并适配为 Python 和 Node 原生包。在 LLM QA 任务基准测试中，LiteParse 与 pdftotext 并列准确率第一，但速度更快；PyMuPDF 延迟接近，但在处理多栏、表格等复杂布局时表现不佳。LiteParse 还支持 50 多种文档格式（包括 .docx、.pptx、.xlsx），并提供 OCR 和截图工具，可直接在 AI Agent 中使用。

AI产品 PDF解析 Rust 开源/仓库 LlamaIndex 文档处理

推荐理由：做 RAG 或文档处理的团队终于有了一个又快又准的开源选择——LiteParse 在速度和准确率上双杀现有方案，建议做 PDF 解析的开发者直接试。

5月26日

23:26

23:26

LlamaIndex@llama_index

Llama Index 发布了一个自动化贷款承销流水线，只需几行代码即可将杂乱的 PDF 文件（如工资单和经纪报表）转换为结构化数据。该流水线使用 LlamaParse 将 PDF 转为干净 Markdown，提取字段到 Pydantic 模型，并进行跨文档分析，生成包含差异标记的承销摘要。这解决了传统手工重新输入数字的低效和错误问题，为金融科技和贷款处理团队提供了自动化解决方案。完整代码和博客文章已发布。

AI产品 LlamaParse 自动化流水线金融科技 PDF解析 Pydantic

推荐理由：金融团队终于有了正经的 AI 用例——LlamaParse 自动处理贷款文件中的 PDF 和数字提取，比手工重输高效太多，做贷款承销或金融数据处理的建议点开。