百度开源Unlimited OCR：一次推理处理数十页PDF

精选理由

百度开源了一款OCR模型，3B参数就能一次处理几十页PDF，不用切页，比传统逐页OCR强太多。

AI 摘要

百度开源的Unlimited OCR模型采用参考滑动窗口注意力（R-SWA）技术，能在32K上下文内一次前向推理处理数十页文档，无需分页。模型仅3B参数、500M激活，显存和算力不随页数增长。传统逐页OCR需要拼接结果，而R-SWA模拟人类连续抄写，始终记忆固定大小的文本。该模型据称基于DeepSeek OCR核心贡献者开发，已在标准长度文档上测试。

AI 翻译 · 中文

小互原样抄写几十页的 PDF，几乎所有模型都做不到一种全新参考滑动窗口注意力（R-SWA）技术能让模型像人类抄书一样“连抄几十页”，而不会造成其记忆混乱。最新开源的 Unlimited OCR 模型：可以模拟人类解析工作记忆的模式 3B大小 500M激活但在标准 32K 上下文上它可以一次前向推理能吞几十页文档，不用切页... 该模型由百度研发，据说是挖走DeepSeek OCR核心贡献者的新作此前所有模型都无法通过一次前向推…

berryxia06-23 02:33原文
向阳乔木06-23 00:10原文
Jerry Liu06-24 23:24原文
marktechpost06-25 05:39原文
IT之家06-25 07:42原文
arXiv: DeepSeek06-22 09:01原文
Pandaily06-23 08:15原文
AK06-23 18:25原文

查看原推