百度开源 Unlimited OCR 模型，解决长文档 OCR 越生成越慢

精选理由

百度开源了一个能一次性解析长文档的OCR模型，不再越处理越慢，性能还超过了DeepSeek OCR。

AI 摘要

百度于6月22日开源Unlimited OCR模型，总参数30亿，推理时仅激活5亿参数。该模型基于DeepSeek OCR架构，采用两级视觉编码和16倍token压缩，将1024×1024的PDF图像压缩为256个视觉token。训练基于DeepSeek OCR检查点继续训练4000步，使用约200万文档样本，在8×16 A800 GPU上运行。在OmniDocBench v1.5上整体得分93.23，高于DeepSeek OCR的87.01和DeepSeek OCR 2的89.17。文本编辑距离0.038，公式CDM 92.61，表格TEDS 90.93，读序编辑距离0.045。

AI 翻译 · 中文

IT之家IT之家 6 月 25 日消息，百度于 6 月 22 日开源推出 Unlimited OCR 模型，总参数量 30 亿，推理时仅激活 5 亿参数，目标解决在解析长文档时，端到端 OCR 模型越生成越慢的问题。 IT之家注：端到端 OCR 模型是统一神经网络架构系统，融合检测图像中的文本和字符识别，摒弃了传统“先检测文字框、再单独识别”的繁琐流程，直接从输入图像映射到文本序列输出，从而减少信息丢失和计算冗余。主流端到端 OCR 模型每…

小互06-24 03:54原文
marktechpost06-25 05:39原文
Jerry Liu06-24 23:24原文
Pandaily06-23 08:15原文
AK06-23 18:25原文

阅读原文