百度开源 Unlimited OCR，一次推理处理多页文档

精选理由

百度搞了个挺牛的 OCR 模型，能一口气读几十页，不像以前那样一页一页循环。开源了，谁都能试试。

AI 摘要

百度开源的 Unlimited OCR 模型采用 R-SWA 注意力机制，支持 32K 上下文窗口，一次前向推理即可完成几十页文档的转录。其核心卖点是 One-Shot Long-Horizon Parsing，无需分页处理，KV Cache 大小恒定。技术报告提到该模型融合了来自 DeepSeek-OCR 的高压缩编码器，且部分核心贡献者与 DeepSeek 有渊源。

AI 翻译 · 中文

berryxia卧槽，这一波有人直接把DeepSeek的“墙角挖倒了啊”？今天在HuggingFace刷到一个有意思的OCR开源模型和背后有趣的故事。这个OCR模型直接与传统的OCR模型完全不同！先说说背景，熟悉的朋友都知道，我最近做过几次OCR评测（可以翻阅我的前面文章），测过18个文档、6类场景，搭过本地工作流。对OCR的能力边界，算是有点体感。之前评测最头疼的并不是准确率，是多页文档的工作流。所有模型都是逐页处理。每一页清空一次记忆，…

小互06-24 03:51原文
arXiv: DeepSeek06-22 09:01原文
向阳乔木06-23 00:10原文
Jerry Liu06-24 23:24原文
Pandaily06-23 08:15原文
AK06-23 18:25原文

查看原推