百度开源Unlimited OCR,一次性解析多页文档

卧槽,这一波直接把DeepSeek的“墙角挖到了啊”! 昨晚看到HuggingFace刷到这个有意…

精选理由

百度开源的Unlimited OCR能一口气读完几十页PDF,不用切块,快又准。技术总监YY可能是DeepSeek出走的,有意思。

AI 摘要

百度开源了Unlimited OCR模型,采用R-SWA(参考滑动窗口注意力)机制,一次前向推理即可处理32K上下文的文档,数十页PDF无需分块。与传统逐页处理的OCR不同,其KV Cache大小恒定,不随长度增长。模型灵感源于人类抄书行为,仅维护近128个状态。技术报告核心贡献者中,技术总监YY疑为DeepSeek前员工。

AI 翻译 · 中文

百度开源了Unlimited OCR模型,采用R-SWA(参考滑动窗口注意力)机制,一次前向推理即可处理32K上下文的文档,数十页PDF无需分块。与传统逐页处理的OCR不同,其KV Cache大小恒定,不随长度增长。模型灵感源于人类抄书行为,仅维护近128个状态。技术报告核心贡献者中,技术总监YY疑为DeepSeek前员工。

berryxia卧槽,这一波直接把DeepSeek的“墙角挖到了啊”! 昨晚看到HuggingFace刷到这个有意思的OCR开源模型和原来背后有趣的故事。 这个OCR模型直接与传统的OCR模型完全不同! 光着速度和精准度真的就无敌了~~ 先说说背景,熟悉的朋友都知道,我最近做过几次OCR评测(可以翻阅我的前面文章),测过18个文档、6类场景,搭过本地工作流。对OCR的能力边界,算是有点体感。 之前评测最头疼的并不是准确率,是多页文档的工作流。所有模型都