LiteParse 是由 LlamaIndex 推出的开源文档解析器,近期迎来重大更新 v2 版本,以 Rust 重写并宣称成为全球最快的 PDF 解析器。
- 主要进展包括:
- 性能实现数量级提升:LiteParse v2 用 Rust 重写后,PDF 解析速度比前代快 100 倍,支持 50+ 格式,被作者称为“全球最快 PDF 解析器” (LiteParse v2:Rust 重写,全球最快 PDF 解析器)。
- 扩展到 WASM 边缘端:推出 LiteParse WASM,可在浏览器和边缘端毫秒级解析 PDF,拓展了应用场景 (LiteParse WASM:毫秒级解析PDF,浏览器/边缘端都能跑)。
- 与 AI Agent 生态深度集成:LiteParse 已通过 MCP 协议集成到任意智能体中,并与 Google Gemini Managed Agents 配合构建文档处理模板,600 行代码即可搭建金融 PDF 问答代理 (LlamaIndex 用 Gemini Managed Agents 构建文档处理模板;LlamaIndex 用 LiteParse 构建金融 PDF 问答代理,600 行代码搞定)。
当前焦点在于 LiteParse v2 将解析速度推向极致,同时通过 WASM 和 Agent 集成降低了使用门槛。值得观察的是,它能否在金融、法律等文档密集领域取代成熟商业方案,以及 Rust 重写在多格式适配上的长期维护挑战。