09:30Jerry Liu@jerryjliu0精选Unlimited OCR是百度开源的OCR模型,总参数量3B,仅500M激活。它在表格解析和阅读顺序方面表现优秀,在OmniDocBench v1.5和v1.6上达到SOTA。核心创新是Reference Sliding Window Attention(R-SWA),能保持恒定KV缓存大小,单次前向传递处理40+页文档。与PaddleOCR-VL-1.6对比显示,它在语义格式和图表方面略有不足。AI模型Unlimited OCRBaiduPaddleOCR-VL-1.6OCR开源模型7 个信源在谈推荐理由:百度开源了Unlimited OCR,3B参数却只有500M激活,表格解析超强,能一次性读完40页文档,比PaddleOCR-VL-1.6强在表格和阅读顺序上。试试看?原文
12:39小互@imxiaohu精选百度开源的Unlimited OCR模型采用参考滑动窗口注意力(R-SWA)技术,能在32K上下文内一次前向推理处理数十页文档,无需分页。模型仅3B参数、500M激活,显存和算力不随页数增长。传统逐页OCR需要拼接结果,而R-SWA模拟人类连续抄写,始终记忆固定大小的文本。该模型据称基于DeepSeek OCR核心贡献者开发,已在标准长度文档上测试。AI模型Unlimited OCR百度R-SWAOCR开源模型8 个信源在谈推荐理由:百度开源了一款OCR模型,3B参数就能一次处理几十页PDF,不用切页,比传统逐页OCR强太多。原文
14:45向阳乔木@vista8百度近日开源了Unlimited OCR模型,参数量3B但仅需500M激活参数。该模型参考了滑动注意力窗口技术,在OCR任务上取得了出乎意料的好效果。轻量级设计使其更易于部署。AI模型百度Unlimited OCROCR开源模型滑动注意力6 个信源在谈推荐理由:百度刚开源的Unlimited OCR,3B参数只激活500M,效果居然这么强,做OCR的赶紧看看。原文
10:33berryxia@berryxia百度开源的 Unlimited OCR 模型采用 R-SWA 注意力机制,支持 32K 上下文窗口,一次前向推理即可完成几十页文档的转录。其核心卖点是 One-Shot Long-Horizon Parsing,无需分页处理,KV Cache 大小恒定。技术报告提到该模型融合了来自 DeepSeek-OCR 的高压缩编码器,且部分核心贡献者与 DeepSeek 有渊源。AI模型Unlimited OCR百度R-SWAOCR开源模型6 个信源在谈推荐理由:百度搞了个挺牛的 OCR 模型,能一口气读几十页,不像以前那样一页一页循环。开源了,谁都能试试。原文
08:05berryxia@berryxia百度开源了Unlimited OCR模型,采用R-SWA(参考滑动窗口注意力)机制,一次前向推理即可处理32K上下文的文档,数十页PDF无需分块。与传统逐页处理的OCR不同,其KV Cache大小恒定,不随长度增长。模型灵感源于人类抄书行为,仅维护近128个状态。技术报告核心贡献者中,技术总监YY疑为DeepSeek前员工。AI模型Unlimited OCR百度DeepSeekR-SWA文档理解6 个信源在谈推荐理由:百度开源的Unlimited OCR能一口气读完几十页PDF,不用切块,快又准。技术总监YY可能是DeepSeek出走的,有意思。原文