百度开源Unlimited OCR，一次性解析多页文档

精选理由

百度开源的Unlimited OCR能一口气读完几十页PDF，不用切块，快又准。技术总监YY可能是DeepSeek出走的，有意思。

AI 摘要

百度开源了Unlimited OCR模型，采用R-SWA（参考滑动窗口注意力）机制，一次前向推理即可处理32K上下文的文档，数十页PDF无需分块。与传统逐页处理的OCR不同，其KV Cache大小恒定，不随长度增长。模型灵感源于人类抄书行为，仅维护近128个状态。技术报告核心贡献者中，技术总监YY疑为DeepSeek前员工。

AI 翻译 · 中文

berryxia卧槽，这一波直接把DeepSeek的“墙角挖到了啊”！昨晚看到HuggingFace刷到这个有意思的OCR开源模型和原来背后有趣的故事。这个OCR模型直接与传统的OCR模型完全不同！光着速度和精准度真的就无敌了~~ 先说说背景，熟悉的朋友都知道，我最近做过几次OCR评测（可以翻阅我的前面文章），测过18个文档、6类场景，搭过本地工作流。对OCR的能力边界，算是有点体感。之前评测最头疼的并不是准确率，是多页文档的工作流。所有模型都…

小互06-24 03:51原文
arXiv: DeepSeek06-22 09:01原文
向阳乔木06-23 00:10原文
Pandaily06-23 08:15原文
Jerry Liu06-24 23:24原文
AK06-23 18:25原文

查看原推