00:46LMSYS Org (SGLang)@lmsysorg精选72°SGLang 集成百度无限 OCR 功能,通过参考滑动窗口注意力(R-SWA)替换传统解码注意力,使 KV 缓存大小在整个解码过程中保持恒定。该方案在单次前向传播中可处理最长 32K token 的文本,转录数十页文档。其高压缩率来自 DeepSeek OCR 编码器,且 R-SWA 方法可扩展至 ASR、翻译等任务。AI产品SGLangOCR百度R-SWA推理优化推荐理由:SGLang 新功能无限 OCR 能一口气处理几十页文档,显存占用不变,比传统注意力省资源,适合长文档批量 OCR 场景。原文
01:31vLLM@vllm_project精选百度Unlimited-OCR现已集成到vLLM推理框架中,基于Reference Sliding Window Attention(R-SWA)机制实现恒定KV缓存,避免内存暴涨和速度下降。该模型能在32K上下文预算下一次性转录40+页文档,且编辑距离极低。在6K输出token场景下,推理速度比DeepSeek-OCR快35%,GPU内存和吞吐量保持恒定。AI模型Unlimited-OCRBaiduvLLMOCRR-SWA1 个信源在谈推荐理由:百度开源了Unlimited-OCR,在vLLM上跑,能一次性解析整本书,内存不涨,比DeepSeek-OCR快35%,做文档OCR的好东西。原文
21:48berryxia@berryxia精选77°PaddleOCR 发布 PP-OCRv6 系列,提供 Tiny、Small、Medium 三种尺寸,分别适配移动端、CPU 文档系统和高并发 API。在 A100 GPU 上单张推理仅需 0.13 秒,Intel CPU 上相比 v5 提速 3.9 至 5.2 倍,Apple M4 配合 ONNX Runtime 可达到 0.35 秒。官方强调轻量架构与高质量训练数据比单纯扩大参数规模更实用。AI模型PaddleOCRPP-OCRv6部署优化轻量模型OCR2 个信源在谈推荐理由:PaddleOCR 把 v6 的部署数据拉得很细,A100 0.13 秒、M4 0.35 秒,还有三种尺寸选,想在生产环境搭 OCR 的直接抄作业。原文
15:45IT之家(博客/媒体)精选71°百度于6月22日开源Unlimited OCR模型,总参数30亿,推理时仅激活5亿参数。该模型基于DeepSeek OCR架构,采用两级视觉编码和16倍token压缩,将1024×1024的PDF图像压缩为256个视觉token。训练基于DeepSeek OCR检查点继续训练4000步,使用约200万文档样本,在8×16 A800 GPU上运行。在OmniDocBench v1.5上整体得分93.23,高于DeepSeek OCR的87.01和DeepSeek OCR 2的89.17。文本编辑距离0.038,公式CDM 92.61,表格TEDS 90.93,读序编辑距离0.045。AI模型Unlimited OCRDeepSeek OCR百度OCR文档解析5 个信源在谈推荐理由:百度开源了一个能一次性解析长文档的OCR模型,不再越处理越慢,性能还超过了DeepSeek OCR。原文
13:45marktechpost@Asif Razzaq精选百度开源Unlimited OCR,一个3B参数的MoE模型,能在单次前向推理中解析数十页文档。其突破性的Reference Sliding Window Attention (R-SWA)机制使KV缓存保持恒定,随着输出增长内存和延迟不变。模型在OmniDocBench v1.5基准上获得93.23分,比DeepSeek OCR基线高出6.22分。该模型采用MIT许可证开源。AI模型Unlimited OCRBaiduDeepSeekOmniDocBenchOCR5 个信源在谈推荐理由:百度开源了一个3B参数的OCR模型,能一口气解析几十页文档,KV缓存不膨胀,性能直接碾压DeepSeek。原文
09:30Jerry Liu@jerryjliu0精选Unlimited OCR是百度开源的OCR模型,总参数量3B,仅500M激活。它在表格解析和阅读顺序方面表现优秀,在OmniDocBench v1.5和v1.6上达到SOTA。核心创新是Reference Sliding Window Attention(R-SWA),能保持恒定KV缓存大小,单次前向传递处理40+页文档。与PaddleOCR-VL-1.6对比显示,它在语义格式和图表方面略有不足。AI模型Unlimited OCRBaiduPaddleOCR-VL-1.6OCR开源模型7 个信源在谈推荐理由:百度开源了Unlimited OCR,3B参数却只有500M激活,表格解析超强,能一次性读完40页文档,比PaddleOCR-VL-1.6强在表格和阅读顺序上。试试看?原文
08:26Jerry Liu@jerryjliu0精选Jerry Liu 发布了 Mistral OCR 在 ParseBench 上的更新结果。该模型的总体得分超过了 GPT-5.5,仅略低于 Gemini 3.1 Pro。在内容忠实度、语义格式和视觉定位方面表现优秀,在表格处理上表现一般,图表能力有限。这些结果展示了该价格区间内模型的竞争力。AI模型Mistral OCRGPT-5.5Gemini 3.1 ProParseBenchOCR推荐理由:Mistral OCR 在 ParseBench 上打败了 GPT-5.5,离 Gemini 3.1 Pro 也不远,价格还便宜,做文档解析很值。原文
01:18Jerry Liu@jerryjliu0精选Mistral OCR 在 ParseBench 上与多个前沿和开源权重模型进行对比测试。它在语义格式化方面表现突出,能准确处理删除线、上下标、标题层级和链接。在内容忠实度(阅读顺序、幻觉、遗漏)和视觉定位(边界框)上也具有竞争力。表格处理能力一般,几乎没有图表能力。其价格明显低于 Azure Doc Intelligence 和 AWS Textract 等 OCR 服务商。AI模型Mistral OCRParseBenchOCR语义格式化基准测试推荐理由:Mistral OCR 在 ParseBench 上语义格式化很强,价格还比 Azure/AWS 便宜,适合做高质量 OCR 又不愿花大价钱的场景。原文
12:39小互@imxiaohu精选百度开源的Unlimited OCR模型采用参考滑动窗口注意力(R-SWA)技术,能在32K上下文内一次前向推理处理数十页文档,无需分页。模型仅3B参数、500M激活,显存和算力不随页数增长。传统逐页OCR需要拼接结果,而R-SWA模拟人类连续抄写,始终记忆固定大小的文本。该模型据称基于DeepSeek OCR核心贡献者开发,已在标准长度文档上测试。AI模型Unlimited OCR百度R-SWAOCR开源模型8 个信源在谈推荐理由:百度开源了一款OCR模型,3B参数就能一次处理几十页PDF,不用切页,比传统逐页OCR强太多。原文
13:55Geek@geekbb精选百度开源了一个基于DeepSeek-OCR升级的视觉语言模型OCR项目,支持一次性解析超长文档。该模型提供两种推理模式:gundam模式用于处理单张图片中的密集文字,base模式适用于多页文档或PDF。项目代码已在GitHub上发布,允许开发者直接使用。AI模型百度DeepSeek-OCR视觉语言模型OCR开源模型推荐理由:百度开源的OCR模型,在DeepSeek-OCR上做了升级,能一次性处理超长文档和密集文字,两种模式很实用。原文
00:47berryxia@berryxia精选72°百度在Hugging Face上开源了Unlimited-OCR模型,其核心创新是R-SWA(Reference Sliding Window Attention),让KV Cache保持恒定,避免随页数爆炸。该模型可一次性解析单张图或多页PDF,在OmniDocBench上获得93分,比DeepSeek-OCR高出6个百分点。它取代了传统“分块+拼接”流程,实现端到端长文档理解,输出质量更高。AI模型Unlimited-OCR百度OmniDocBenchDeepSeek-OCROCR5 个信源在谈推荐理由:百度开源了Unlimited-OCR,几百页文档一次搞定,不用分块拼接,速度稳准狠,OmniDocBench上93分压了DeepSeek-OCR一头。原文
11:37berryxia@berryxia精选开发者发布了一个开源的本地OCR工作台,基于PP-OCRv6模型,在Mac上利用CoreML加速。提供Tiny(1.5MB)、Small、Medium(34.5MB)三个模型,支持图片上传、批量处理和导出CSV/Markdown/Excel。完全本地运行,苹果硅芯片自动启用CoreML加速,Intel Mac和Linux可用CPU。还包含浏览器版Tiny模型和与OmniDocBench、Apple Vision对比的评测脚本,在弯曲表面、点阵字体等难例场景表现良好。AI产品PP-OCRv6CoreMLMacOCR开源模型推荐理由:老哥把PP-OCRv6做成了Mac本地工具,一键切换模型大小,还能批量导出,离线用超方便。原文
AITOP5月29日 08:02Opus 4.8发布:编程助手的“静默时刻”,是解放开发者,还是新门槛?🔥Anthropic 把 AI 编程的“确认键”彻底删掉了!Claude Code 搭载全新 Opus 4.8 模型,长时间任务不跑偏、不废话、不中断,像一个资深工程师一样默默干活,从功能开发到漏洞清扫全包圆,你在旁边喝茶等结果就行。过去 AI 写代码三步一问“这样可以吗”,现在它直接交完整交付物……自主编程的最后一层窗户纸,被捅破了。做自动化开发和代码审查的团队,这个模型建议直接上手,效率差距肉眼可见……
21:51berryxia@berryxia精选PaddleOCR 3.5 正式发布,支持 Transformers 作为推理后端,PP-OCRv5 和 PaddleOCR-VL 1.5 模型可直接在 Hugging Face 生态中运行。此前将 PaddleOCR 集成到 RAG 或 Document AI 项目需要额外搭建服务栈,现在流程大幅简化。Hugging Face 团队参与了合作,使得 OCR 工具与主流 Transformer 生态无缝对接。输出结果更精准可靠,无需依赖 LLM 来补充。AI产品PaddleOCRHugging FaceOCRTransformers文档智能推荐理由:做文档智能或 RAG 的团队终于不用在 OCR 和 Transformer 之间搭桥了,PaddleOCR 3.5 直接跑在 Hugging Face 上,省掉一堆服务栈,建议做 Document AI 的开发者点开试试。原文
00:30Hugging Face: Blog(博客/媒体)精选PaddleOCR 3.5 版本正式发布,新增对 Transformers 后端的支持,允许用户使用 Hugging Face 生态中的预训练模型进行 OCR 和文档解析任务。这一更新打破了原有框架对 PaddlePaddle 模型的依赖,提升了模型选择的灵活性和生态兼容性。新版本还优化了文档解析性能,支持更多语言和复杂版面分析。对于需要集成 OCR 能力的开发者来说,这是一个重要的升级,可以直接利用社区丰富的 Transformers 模型资源。AI产品OCR文档解析PaddleOCRTransformers开源/仓库推荐理由:PaddleOCR 拥抱 Transformers 生态,做文档解析和 OCR 的团队可以更灵活地选模型,不用被框架绑死,值得升级试试。原文
14:04Jerry Liu@jerryjliu0精选LlamaIndex CEO Jerry Liu指出,金融领域的AI智能体可分为两类:一是重复性操作工作(如发票处理、贷款发起、KYC),二是开放式研究与报告生成(如尽职调查、股票研究)。他在纽约的研讨会上强调,构建高质量文档上下文层需要严格的OCR层、评估检查和良好的人机交互审核UI/UX,因为数字的微小错误可能导致灾难性后果。他分享了演讲幻灯片和Logan的仓库,后者展示了构建带完整人机交互审核的金融文档解析流水线。LlamaIndex的核心使命是为金融等领域的AI智能体提取最高质量的文档上下文。AI产品金融AI文档处理OCR人机交互审核LlamaIndex推荐理由:金融从业者做AI智能体时,文档上下文质量直接决定成败——LlamaIndex的实践方案(OCR+评估+人机审核)值得参考,尤其是处理发票、KYC等场景的团队建议点开。原文
13:27arXiv: DeepSeek@Ahmed Heakl, Youssef Mohamed, Abdullah Sohail, Rania Elbadry, Ahmed Nassar, Peter W. J. Staar, Fahad Shahbaz Khan, Imran Razzak, Salman Khan精选DocAtlas 是一个多语言文档理解框架,覆盖 82 种语言和 9 项评估任务,解决了低资源语言因训练数据稀缺和标注偏差导致的性能瓶颈。它通过差分渲染原生 DOCX 文档和基于 LaTeX 的合成生成(针对从右到左书写系统)来构建高保真 OCR 数据集,无需学习模型即可生成统一 DocTag 格式的结构化标注。评估 16 个 SOTA 模型发现低资源语言仍存在显著差距。使用直接偏好优化(DPO)以渲染生成的真实数据作为正信号,实现了稳定的多语言适配,在域内和域外准确率分别提升 1.9% 和 1.8%,而监督微调导致域外性能下降高达 21%。最佳变体 DocAtlas-DeepSeek 比最强基线提升 1.7%。论文多语言文档理解OCR低资源语言DPO/直接偏好优化DocAtlas推荐理由:做多语言文档理解或 OCR 的团队终于有了一个覆盖 82 种语言的高质量基准和训练框架,低资源语言场景可以直接用 DPO 方法提升效果,建议点开看具体实现。原文