14:34量子位@林樾百度在GitHub开源了全新OCR模型,模型名称暂未公开,但根据展示能一次性识别整本图书内容。该模型作者被社区推测为前DeepSeek研究员。项目已在GitHub托管,提供预训练权重和API文档。AI模型百度OCR开源模型DeepSeek推荐理由:百度搞了个能扫整本书的OCR,还开源了,做文档处理的可以试试。原文
15:45IT之家(博客/媒体)精选71°百度于6月22日开源Unlimited OCR模型,总参数30亿,推理时仅激活5亿参数。该模型基于DeepSeek OCR架构,采用两级视觉编码和16倍token压缩,将1024×1024的PDF图像压缩为256个视觉token。训练基于DeepSeek OCR检查点继续训练4000步,使用约200万文档样本,在8×16 A800 GPU上运行。在OmniDocBench v1.5上整体得分93.23,高于DeepSeek OCR的87.01和DeepSeek OCR 2的89.17。文本编辑距离0.038,公式CDM 92.61,表格TEDS 90.93,读序编辑距离0.045。AI模型Unlimited OCRDeepSeek OCR百度OCR文档解析5 个信源在谈推荐理由:百度开源了一个能一次性解析长文档的OCR模型,不再越处理越慢,性能还超过了DeepSeek OCR。原文
13:45marktechpost@Asif Razzaq精选百度开源Unlimited OCR,一个3B参数的MoE模型,能在单次前向推理中解析数十页文档。其突破性的Reference Sliding Window Attention (R-SWA)机制使KV缓存保持恒定,随着输出增长内存和延迟不变。模型在OmniDocBench v1.5基准上获得93.23分,比DeepSeek OCR基线高出6.22分。该模型采用MIT许可证开源。AI模型Unlimited OCRBaiduDeepSeekOmniDocBenchOCR5 个信源在谈推荐理由:百度开源了一个3B参数的OCR模型,能一口气解析几十页文档,KV缓存不膨胀,性能直接碾压DeepSeek。原文
16:21Pandaily@contact@pandaily.com (Pandaily)百度推出Unlimited-OCR技术,核心是Constant KV Cache方法,专为超长文档设计。该技术在长文档OCR任务上取得SOTA性能,解决了传统KV缓存随文档长度线性增长的问题。Constant KV Cache将缓存大小保持常数,显著降低内存占用和推理延迟。AI模型Unlimited-OCRConstant KV Cache百度OCR长文档8 个信源在谈推荐理由:百度搞了个Unlimited-OCR,用Constant KV Cache解决长文档识别,缓存不爆炸,性能还最强,适合处理几百页的合同或文献。原文
00:30Hugging Face: Blog(博客/媒体)精选PaddleOCR 3.5 版本正式发布,新增对 Transformers 后端的支持,允许用户使用 Hugging Face 生态中的预训练模型进行 OCR 和文档解析任务。这一更新打破了原有框架对 PaddlePaddle 模型的依赖,提升了模型选择的灵活性和生态兼容性。新版本还优化了文档解析性能,支持更多语言和复杂版面分析。对于需要集成 OCR 能力的开发者来说,这是一个重要的升级,可以直接利用社区丰富的 Transformers 模型资源。AI产品OCR文档解析PaddleOCRTransformers开源/仓库推荐理由:PaddleOCR 拥抱 Transformers 生态,做文档解析和 OCR 的团队可以更灵活地选模型,不用被框架绑死,值得升级试试。原文