精选理由
百度开源了一款OCR模型,3B参数就能一次处理几十页PDF,不用切页,比传统逐页OCR强太多。
百度开源的Unlimited OCR模型采用参考滑动窗口注意力(R-SWA)技术,能在32K上下文内一次前向推理处理数十页文档,无需分页。模型仅3B参数、500M激活,显存和算力不随页数增长。传统逐页OCR需要拼接结果,而R-SWA模拟人类连续抄写,始终记忆固定大小的文本。该模型据称基于DeepSeek OCR核心贡献者开发,已在标准长度文档上测试。
AI 翻译 · 中文
百度开源的Unlimited OCR模型采用参考滑动窗口注意力(R-SWA)技术,能在32K上下文内一次前向推理处理数十页文档,无需分页。模型仅3B参数、500M激活,显存和算力不随页数增长。传统逐页OCR需要拼接结果,而R-SWA模拟人类连续抄写,始终记忆固定大小的文本。该模型据称基于DeepSeek OCR核心贡献者开发,已在标准长度文档上测试。
原样抄写几十页的 PDF,几乎所有模型都做不到 一种全新参考滑动窗口注意力(R-SWA)技术 能让模型像人类抄书一样“连抄几十页”,而不会造成其记忆混乱。 最新开源的 Unlimited OCR 模型: 可以模拟人类解析工作记忆的模式 3B大小 500M激活 但在标准 32K 上下文上 它可以一次前向推理能吞几十页文档,不用切页... 该模型由百度研发,据说是挖走DeepSeek OCR核心贡献者的新作 此前所有模型都无法通过一次前向推…