全部 AI 动态 · AI 热点

AITOP

6月29日

03:06

AK@_akhaliq

百度发布的Unlimited-OCR模型在Hugging Face模型排行榜上位列第一，超越其他模型。该模型专注于OCR文字识别任务，具体基准成绩尚未公布。其排名基于社区下载量和交互数据，反映出较高的关注度。

AI模型 baidu/Unlimited-OCR Hugging Face OCR 文字识别

推荐理由：百度这个OCR模型居然冲到Hugging Face第一了，想搞文字识别的可以看看它有什么本事。

原文

01:31

vLLM@vllm_project

精选

百度Unlimited-OCR现已集成到vLLM推理框架中，基于Reference Sliding Window Attention（R-SWA）机制实现恒定KV缓存，避免内存暴涨和速度下降。该模型能在32K上下文预算下一次性转录40+页文档，且编辑距离极低。在6K输出token场景下，推理速度比DeepSeek-OCR快35%，GPU内存和吞吐量保持恒定。

AI模型 Unlimited-OCR Baidu vLLM OCR R-SWA

推荐理由：百度开源了Unlimited-OCR，在vLLM上跑，能一次性解析整本书，内存不涨，比DeepSeek-OCR快35%，做文档OCR的好东西。

原文

6月28日

14:34

量子位@林樾

百度在GitHub开源了全新OCR模型，模型名称暂未公开，但根据展示能一次性识别整本图书内容。该模型作者被社区推测为前DeepSeek研究员。项目已在GitHub托管，提供预训练权重和API文档。

AI模型百度 OCR 开源模型 DeepSeek

推荐理由：百度搞了个能扫整本书的OCR，还开源了，做文档处理的可以试试。

原文

6月26日

21:48

berryxia@berryxia

精选77°

PaddleOCR 发布 PP-OCRv6 系列，提供 Tiny、Small、Medium 三种尺寸，分别适配移动端、CPU 文档系统和高并发 API。在 A100 GPU 上单张推理仅需 0.13 秒，Intel CPU 上相比 v5 提速 3.9 至 5.2 倍，Apple M4 配合 ONNX Runtime 可达到 0.35 秒。官方强调轻量架构与高质量训练数据比单纯扩大参数规模更实用。

AI模型 PaddleOCR PP-OCRv6 部署优化轻量模型 OCR

推荐理由：PaddleOCR 把 v6 的部署数据拉得很细，A100 0.13 秒、M4 0.35 秒，还有三种尺寸选，想在生产环境搭 OCR 的直接抄作业。

原文

6月25日

15:45

15:45IT之家（博客/媒体）

精选71°

百度于6月22日开源Unlimited OCR模型，总参数30亿，推理时仅激活5亿参数。该模型基于DeepSeek OCR架构，采用两级视觉编码和16倍token压缩，将1024×1024的PDF图像压缩为256个视觉token。训练基于DeepSeek OCR检查点继续训练4000步，使用约200万文档样本，在8×16 A800 GPU上运行。在OmniDocBench v1.5上整体得分93.23，高于DeepSeek OCR的87.01和DeepSeek OCR 2的89.17。文本编辑距离0.038，公式CDM 92.61，表格TEDS 90.93，读序编辑距离0.045。

AI模型 Unlimited OCR DeepSeek OCR 百度 OCR 文档解析

推荐理由：百度开源了一个能一次性解析长文档的OCR模型，不再越处理越慢，性能还超过了DeepSeek OCR。

原文

13:45

marktechpost@Asif Razzaq

精选

百度开源Unlimited OCR，一个3B参数的MoE模型，能在单次前向推理中解析数十页文档。其突破性的Reference Sliding Window Attention (R-SWA)机制使KV缓存保持恒定，随着输出增长内存和延迟不变。模型在OmniDocBench v1.5基准上获得93.23分，比DeepSeek OCR基线高出6.22分。该模型采用MIT许可证开源。

AI模型 Unlimited OCR Baidu DeepSeek OmniDocBench OCR

推荐理由：百度开源了一个3B参数的OCR模型，能一口气解析几十页文档，KV缓存不膨胀，性能直接碾压DeepSeek。

原文

10:09

berryxia@berryxia

PP-OCRv6已正式上架Hugging Face平台。本次更新新增transformers和ONNX Runtime两个推理后端，用户可以通过统一API在不同框架间无缝切换。相比PP-OCRv5，PP-OCRv6在字符识别精度上有进一步提升。该版本尤其适合希望在transformers生态中直接使用高性能OCR的开发者。

AI模型 PaddleOCR PP-OCRv6 Hugging Face transformers OCR

推荐理由：PaddleOCR的PP-OCRv6上HF了，支持transformers和ONNX Runtime双后端，切换框架不用改代码，超实用。

原文

09:30

Jerry Liu@jerryjliu0

精选

Unlimited OCR是百度开源的OCR模型，总参数量3B，仅500M激活。它在表格解析和阅读顺序方面表现优秀，在OmniDocBench v1.5和v1.6上达到SOTA。核心创新是Reference Sliding Window Attention（R-SWA），能保持恒定KV缓存大小，单次前向传递处理40+页文档。与PaddleOCR-VL-1.6对比显示，它在语义格式和图表方面略有不足。

AI模型 Unlimited OCR Baidu PaddleOCR-VL-1.6 OCR 开源模型

推荐理由：百度开源了Unlimited OCR，3B参数却只有500M激活，表格解析超强，能一次性读完40页文档，比PaddleOCR-VL-1.6强在表格和阅读顺序上。试试看？

原文

08:26

Jerry Liu@jerryjliu0

精选

Jerry Liu 发布了 Mistral OCR 在 ParseBench 上的更新结果。该模型的总体得分超过了 GPT-5.5，仅略低于 Gemini 3.1 Pro。在内容忠实度、语义格式和视觉定位方面表现优秀，在表格处理上表现一般，图表能力有限。这些结果展示了该价格区间内模型的竞争力。

AI模型 Mistral OCR GPT-5.5 Gemini 3.1 Pro ParseBench OCR

推荐理由：Mistral OCR 在 ParseBench 上打败了 GPT-5.5，离 Gemini 3.1 Pro 也不远，价格还便宜，做文档解析很值。

原文

01:18

Jerry Liu@jerryjliu0

精选

Mistral OCR 在 ParseBench 上与多个前沿和开源权重模型进行对比测试。它在语义格式化方面表现突出，能准确处理删除线、上下标、标题层级和链接。在内容忠实度（阅读顺序、幻觉、遗漏）和视觉定位（边界框）上也具有竞争力。表格处理能力一般，几乎没有图表能力。其价格明显低于 Azure Doc Intelligence 和 AWS Textract 等 OCR 服务商。

AI模型 Mistral OCR ParseBench OCR 语义格式化基准测试

推荐理由：Mistral OCR 在 ParseBench 上语义格式化很强，价格还比 Azure/AWS 便宜，适合做高质量 OCR 又不愿花大价钱的场景。

原文

6月24日

12:39

小互@imxiaohu

精选

百度开源的Unlimited OCR模型采用参考滑动窗口注意力（R-SWA）技术，能在32K上下文内一次前向推理处理数十页文档，无需分页。模型仅3B参数、500M激活，显存和算力不随页数增长。传统逐页OCR需要拼接结果，而R-SWA模拟人类连续抄写，始终记忆固定大小的文本。该模型据称基于DeepSeek OCR核心贡献者开发，已在标准长度文档上测试。

AI模型 Unlimited OCR 百度 R-SWA OCR 开源模型

推荐理由：百度开源了一款OCR模型，3B参数就能一次处理几十页PDF，不用切页，比传统逐页OCR强太多。

原文

07:34

Mistral AI@MistralAI

Mistral 推出 OCR 4，独立标注员对600多份真实文档进行盲评，涵盖12种以上语言。在所有对比系统中，OCR 4 被优先选择，平均胜率达72%。该结果基于随机排序的双盲测试，标注员无法识别系统来源。

AI模型 Mistral OCR 4 OCR 文档识别多语言

推荐理由：Mistral 的 OCR 4 盲测赢了所有对手，处理多国语言文档很稳，平均胜率72%，值得试试。

原文

03:28

AK@_akhaliq

百度发布了名为Unlimited-OCR的OCR服务。该产品提供无限次数的OCR识别功能。用户可通过调用API或直接使用。目前暂无定价信息。

AI产品百度 Unlimited-OCR OCR 文字识别

推荐理由：百度出了个Unlimited-OCR，无限次OCR识别，做文字提取的可以试试。

原文

6月23日

16:21

Pandaily@contact@pandaily.com (Pandaily)

百度推出Unlimited-OCR技术，核心是Constant KV Cache方法，专为超长文档设计。该技术在长文档OCR任务上取得SOTA性能，解决了传统KV缓存随文档长度线性增长的问题。Constant KV Cache将缓存大小保持常数，显著降低内存占用和推理延迟。

AI模型 Unlimited-OCR Constant KV Cache 百度 OCR 长文档

推荐理由：百度搞了个Unlimited-OCR，用Constant KV Cache解决长文档识别，缓存不爆炸，性能还最强，适合处理几百页的合同或文献。

原文

14:46

向阳乔木@vista8

76°

百度发布Unlimited OCR，模拟人类抄书注意力模式，每生成一个token时参考完整图像和提示词，但输出侧仅回看前128个token。KV缓存固定为128长度，避免长文档推理时内存爆炸。在超长文档OCR任务上效果显著，已在GitHub和Hugging Face开源。

AI模型 UnlimitedOCR 百度 OCR 推理模型开源模型

推荐理由：百度开源了一个超聪明的OCR方案，用固定128 token缓存模拟人眼抄书，长文档不爆内存，快去试试！

原文

14:45

向阳乔木@vista8

百度近日开源了Unlimited OCR模型，参数量3B但仅需500M激活参数。该模型参考了滑动注意力窗口技术，在OCR任务上取得了出乎意料的好效果。轻量级设计使其更易于部署。

AI模型百度 Unlimited OCR OCR 开源模型滑动注意力

推荐理由：百度刚开源的Unlimited OCR，3B参数只激活500M，效果居然这么强，做OCR的赶紧看看。

原文

13:55

Geek@geekbb

精选

百度开源了一个基于DeepSeek-OCR升级的视觉语言模型OCR项目，支持一次性解析超长文档。该模型提供两种推理模式：gundam模式用于处理单张图片中的密集文字，base模式适用于多页文档或PDF。项目代码已在GitHub上发布，允许开发者直接使用。

AI模型百度 DeepSeek-OCR 视觉语言模型 OCR 开源模型

推荐理由：百度开源的OCR模型，在DeepSeek-OCR上做了升级，能一次性处理超长文档和密集文字，两种模式很实用。

原文

12:05

arXiv: DeepSeek@Youyang Yin, Huanhuan Liu, YY, Qunyi Xie, Chaorun Liu, Shiqi Yang, Shaohua Wang, Zhanlong Liu, Hao Zou, Jinyue Chen, Shu Wei, Jingjing Wu, Mingxin Huang, Zhen Wu, Guibin Wang, Tengyu Du, Lei Jia

Unlimited OCR 模型以 DeepSeek OCR 为基线，将所有解码器注意力层替换为 Reference Sliding Window Attention (R-SWA)，使解码过程中 KV 缓存保持恒定，不再随输出长度增长。在标准最大长度 32K 下，Unlimited OCR 可一次性转录数十页文档。相比传统端到端 OCR 模型，Unlimited OCR 解决了长序列中内存和速度下降的问题。R-SWA 是一种通用解析注意力机制，还可应用于 ASR、翻译等任务。代码和权重已在 GitHub 开源。

论文 Unlimited OCR DeepSeek OCR R-SWA OCR 推理效率

推荐理由：百度新出的 Unlimted OCR 用了一种叫 R-SWA 的注意力机制，让它处理几十页文档时不会变慢，内存占用也恒定。想做长文档 OCR 的可以试试。

原文

10:33

berryxia@berryxia

百度开源的 Unlimited OCR 模型采用 R-SWA 注意力机制，支持 32K 上下文窗口，一次前向推理即可完成几十页文档的转录。其核心卖点是 One-Shot Long-Horizon Parsing，无需分页处理，KV Cache 大小恒定。技术报告提到该模型融合了来自 DeepSeek-OCR 的高压缩编码器，且部分核心贡献者与 DeepSeek 有渊源。

AI模型 Unlimited OCR 百度 R-SWA OCR 开源模型

推荐理由：百度搞了个挺牛的 OCR 模型，能一口气读几十页，不像以前那样一页一页循环。开源了，谁都能试试。

原文

00:47

berryxia@berryxia

精选72°

百度在Hugging Face上开源了Unlimited-OCR模型，其核心创新是R-SWA（Reference Sliding Window Attention），让KV Cache保持恒定，避免随页数爆炸。该模型可一次性解析单张图或多页PDF，在OmniDocBench上获得93分，比DeepSeek-OCR高出6个百分点。它取代了传统“分块+拼接”流程，实现端到端长文档理解，输出质量更高。

AI模型 Unlimited-OCR 百度 OmniDocBench DeepSeek-OCR OCR

推荐理由：百度开源了Unlimited-OCR，几百页文档一次搞定，不用分块拼接，速度稳准狠，OmniDocBench上93分压了DeepSeek-OCR一头。

原文

6月18日

10:57

arXiv cs.LG@Denis Peskoff, Joe Barrow, Christopher Vu, Diag Davenport

LOCUS是美国首个大规模地方法规语料库，收录9,239个市县的法典。该数据集通过OCR处理了多种文档格式，覆盖3,144个县中的2,309个，覆盖多数美国人口。研究团队训练了基于ModernBERT的分类器，用于分析法规的模糊性和家长主义等维度。LOCUS-v1及其衍生模型已在Hugging Face上开源。

论文 LOCUS Legal AI 数据集 OCR 法规语料库

推荐理由：法律AI研究者有福了！LOCUS提供了9,239个美国地方法规的机器可读语料，还附带了基于ModernBERT的分析工具，解决碎片化问题。

原文

6月17日

11:37

berryxia@berryxia

精选

开发者发布了一个开源的本地OCR工作台，基于PP-OCRv6模型，在Mac上利用CoreML加速。提供Tiny(1.5MB)、Small、Medium(34.5MB)三个模型，支持图片上传、批量处理和导出CSV/Markdown/Excel。完全本地运行，苹果硅芯片自动启用CoreML加速，Intel Mac和Linux可用CPU。还包含浏览器版Tiny模型和与OmniDocBench、Apple Vision对比的评测脚本，在弯曲表面、点阵字体等难例场景表现良好。

AI产品 PP-OCRv6 CoreML Mac OCR 开源模型

推荐理由：老哥把PP-OCRv6做成了Mac本地工具，一键切换模型大小，还能批量导出，离线用超方便。

原文

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

15:57

Geek@geekbb

OCR Extractor 是一款 Obsidian 插件，现已支持本地 OCR 模型，无需联网即可运行。它能够从 PDF、图片等附件中提取文本，并自动保存为可搜索的 Markdown 文件。本地模型保障用户数据隐私，同时提升 Obsidian 中的文档管理效率。该插件已在 GitHub 上开源。

AI产品 Obsidian OCR OCR Extractor 本地模型插件

推荐理由：Obsidian 用户快看，OCR Extractor 现在支持本地模型了，不用联网就能把 PDF 和图片里的文字提取出来变成可搜索的笔记，隐私更好还免费。

原文

6月12日