全部 AI 动态 · AI 热点

AITOP

6月29日

03:06

AK@_akhaliq

百度发布的Unlimited-OCR模型在Hugging Face模型排行榜上位列第一，超越其他模型。该模型专注于OCR文字识别任务，具体基准成绩尚未公布。其排名基于社区下载量和交互数据，反映出较高的关注度。

AI模型 baidu/Unlimited-OCR Hugging Face OCR 文字识别

推荐理由：百度这个OCR模型居然冲到Hugging Face第一了，想搞文字识别的可以看看它有什么本事。

原文

01:31

vLLM@vllm_project

精选

百度Unlimited-OCR现已集成到vLLM推理框架中，基于Reference Sliding Window Attention（R-SWA）机制实现恒定KV缓存，避免内存暴涨和速度下降。该模型能在32K上下文预算下一次性转录40+页文档，且编辑距离极低。在6K输出token场景下，推理速度比DeepSeek-OCR快35%，GPU内存和吞吐量保持恒定。

AI模型 Unlimited-OCR Baidu vLLM OCR R-SWA

推荐理由：百度开源了Unlimited-OCR，在vLLM上跑，能一次性解析整本书，内存不涨，比DeepSeek-OCR快35%，做文档OCR的好东西。

原文

6月26日

21:48

berryxia@berryxia

精选77°

PaddleOCR 发布 PP-OCRv6 系列，提供 Tiny、Small、Medium 三种尺寸，分别适配移动端、CPU 文档系统和高并发 API。在 A100 GPU 上单张推理仅需 0.13 秒，Intel CPU 上相比 v5 提速 3.9 至 5.2 倍，Apple M4 配合 ONNX Runtime 可达到 0.35 秒。官方强调轻量架构与高质量训练数据比单纯扩大参数规模更实用。

AI模型 PaddleOCR PP-OCRv6 部署优化轻量模型 OCR

推荐理由：PaddleOCR 把 v6 的部署数据拉得很细，A100 0.13 秒、M4 0.35 秒，还有三种尺寸选，想在生产环境搭 OCR 的直接抄作业。

原文

6月25日

10:09

berryxia@berryxia

PP-OCRv6已正式上架Hugging Face平台。本次更新新增transformers和ONNX Runtime两个推理后端，用户可以通过统一API在不同框架间无缝切换。相比PP-OCRv5，PP-OCRv6在字符识别精度上有进一步提升。该版本尤其适合希望在transformers生态中直接使用高性能OCR的开发者。

AI模型 PaddleOCR PP-OCRv6 Hugging Face transformers OCR

推荐理由：PaddleOCR的PP-OCRv6上HF了，支持transformers和ONNX Runtime双后端，切换框架不用改代码，超实用。

原文

09:30

Jerry Liu@jerryjliu0

精选

Unlimited OCR是百度开源的OCR模型，总参数量3B，仅500M激活。它在表格解析和阅读顺序方面表现优秀，在OmniDocBench v1.5和v1.6上达到SOTA。核心创新是Reference Sliding Window Attention（R-SWA），能保持恒定KV缓存大小，单次前向传递处理40+页文档。与PaddleOCR-VL-1.6对比显示，它在语义格式和图表方面略有不足。

AI模型 Unlimited OCR Baidu PaddleOCR-VL-1.6 OCR 开源模型

推荐理由：百度开源了Unlimited OCR，3B参数却只有500M激活，表格解析超强，能一次性读完40页文档，比PaddleOCR-VL-1.6强在表格和阅读顺序上。试试看？

原文

08:26

Jerry Liu@jerryjliu0

精选

Jerry Liu 发布了 Mistral OCR 在 ParseBench 上的更新结果。该模型的总体得分超过了 GPT-5.5，仅略低于 Gemini 3.1 Pro。在内容忠实度、语义格式和视觉定位方面表现优秀，在表格处理上表现一般，图表能力有限。这些结果展示了该价格区间内模型的竞争力。

AI模型 Mistral OCR GPT-5.5 Gemini 3.1 Pro ParseBench OCR

推荐理由：Mistral OCR 在 ParseBench 上打败了 GPT-5.5，离 Gemini 3.1 Pro 也不远，价格还便宜，做文档解析很值。

原文

01:18

Jerry Liu@jerryjliu0

精选

Mistral OCR 在 ParseBench 上与多个前沿和开源权重模型进行对比测试。它在语义格式化方面表现突出，能准确处理删除线、上下标、标题层级和链接。在内容忠实度（阅读顺序、幻觉、遗漏）和视觉定位（边界框）上也具有竞争力。表格处理能力一般，几乎没有图表能力。其价格明显低于 Azure Doc Intelligence 和 AWS Textract 等 OCR 服务商。

AI模型 Mistral OCR ParseBench OCR 语义格式化基准测试

推荐理由：Mistral OCR 在 ParseBench 上语义格式化很强，价格还比 Azure/AWS 便宜，适合做高质量 OCR 又不愿花大价钱的场景。

原文

6月24日

12:39

小互@imxiaohu

精选

百度开源的Unlimited OCR模型采用参考滑动窗口注意力（R-SWA）技术，能在32K上下文内一次前向推理处理数十页文档，无需分页。模型仅3B参数、500M激活，显存和算力不随页数增长。传统逐页OCR需要拼接结果，而R-SWA模拟人类连续抄写，始终记忆固定大小的文本。该模型据称基于DeepSeek OCR核心贡献者开发，已在标准长度文档上测试。

AI模型 Unlimited OCR 百度 R-SWA OCR 开源模型

推荐理由：百度开源了一款OCR模型，3B参数就能一次处理几十页PDF，不用切页，比传统逐页OCR强太多。

原文

07:34

Mistral AI@MistralAI

Mistral 推出 OCR 4，独立标注员对600多份真实文档进行盲评，涵盖12种以上语言。在所有对比系统中，OCR 4 被优先选择，平均胜率达72%。该结果基于随机排序的双盲测试，标注员无法识别系统来源。

AI模型 Mistral OCR 4 OCR 文档识别多语言

推荐理由：Mistral 的 OCR 4 盲测赢了所有对手，处理多国语言文档很稳，平均胜率72%，值得试试。

原文

03:28

AK@_akhaliq

百度发布了名为Unlimited-OCR的OCR服务。该产品提供无限次数的OCR识别功能。用户可通过调用API或直接使用。目前暂无定价信息。

AI产品百度 Unlimited-OCR OCR 文字识别

推荐理由：百度出了个Unlimited-OCR，无限次OCR识别，做文字提取的可以试试。

原文

6月23日

14:46

向阳乔木@vista8

76°

百度发布Unlimited OCR，模拟人类抄书注意力模式，每生成一个token时参考完整图像和提示词，但输出侧仅回看前128个token。KV缓存固定为128长度，避免长文档推理时内存爆炸。在超长文档OCR任务上效果显著，已在GitHub和Hugging Face开源。

AI模型 UnlimitedOCR 百度 OCR 推理模型开源模型

推荐理由：百度开源了一个超聪明的OCR方案，用固定128 token缓存模拟人眼抄书，长文档不爆内存，快去试试！

原文

14:45

向阳乔木@vista8

百度近日开源了Unlimited OCR模型，参数量3B但仅需500M激活参数。该模型参考了滑动注意力窗口技术，在OCR任务上取得了出乎意料的好效果。轻量级设计使其更易于部署。

AI模型百度 Unlimited OCR OCR 开源模型滑动注意力

推荐理由：百度刚开源的Unlimited OCR，3B参数只激活500M，效果居然这么强，做OCR的赶紧看看。

原文

13:55

Geek@geekbb

精选

百度开源了一个基于DeepSeek-OCR升级的视觉语言模型OCR项目，支持一次性解析超长文档。该模型提供两种推理模式：gundam模式用于处理单张图片中的密集文字，base模式适用于多页文档或PDF。项目代码已在GitHub上发布，允许开发者直接使用。

AI模型百度 DeepSeek-OCR 视觉语言模型 OCR 开源模型

推荐理由：百度开源的OCR模型，在DeepSeek-OCR上做了升级，能一次性处理超长文档和密集文字，两种模式很实用。

原文

10:33

berryxia@berryxia

百度开源的 Unlimited OCR 模型采用 R-SWA 注意力机制，支持 32K 上下文窗口，一次前向推理即可完成几十页文档的转录。其核心卖点是 One-Shot Long-Horizon Parsing，无需分页处理，KV Cache 大小恒定。技术报告提到该模型融合了来自 DeepSeek-OCR 的高压缩编码器，且部分核心贡献者与 DeepSeek 有渊源。

AI模型 Unlimited OCR 百度 R-SWA OCR 开源模型

推荐理由：百度搞了个挺牛的 OCR 模型，能一口气读几十页，不像以前那样一页一页循环。开源了，谁都能试试。

原文

00:47

berryxia@berryxia

精选72°

百度在Hugging Face上开源了Unlimited-OCR模型，其核心创新是R-SWA（Reference Sliding Window Attention），让KV Cache保持恒定，避免随页数爆炸。该模型可一次性解析单张图或多页PDF，在OmniDocBench上获得93分，比DeepSeek-OCR高出6个百分点。它取代了传统“分块+拼接”流程，实现端到端长文档理解，输出质量更高。

AI模型 Unlimited-OCR 百度 OmniDocBench DeepSeek-OCR OCR

推荐理由：百度开源了Unlimited-OCR，几百页文档一次搞定，不用分块拼接，速度稳准狠，OmniDocBench上93分压了DeepSeek-OCR一头。

原文

6月17日

11:37

berryxia@berryxia

精选

开发者发布了一个开源的本地OCR工作台，基于PP-OCRv6模型，在Mac上利用CoreML加速。提供Tiny(1.5MB)、Small、Medium(34.5MB)三个模型，支持图片上传、批量处理和导出CSV/Markdown/Excel。完全本地运行，苹果硅芯片自动启用CoreML加速，Intel Mac和Linux可用CPU。还包含浏览器版Tiny模型和与OmniDocBench、Apple Vision对比的评测脚本，在弯曲表面、点阵字体等难例场景表现良好。

AI产品 PP-OCRv6 CoreML Mac OCR 开源模型

推荐理由：老哥把PP-OCRv6做成了Mac本地工具，一键切换模型大小，还能批量导出，离线用超方便。

原文

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

15:57

Geek@geekbb

OCR Extractor 是一款 Obsidian 插件，现已支持本地 OCR 模型，无需联网即可运行。它能够从 PDF、图片等附件中提取文本，并自动保存为可搜索的 Markdown 文件。本地模型保障用户数据隐私，同时提升 Obsidian 中的文档管理效率。该插件已在 GitHub 上开源。

AI产品 Obsidian OCR OCR Extractor 本地模型插件

推荐理由：Obsidian 用户快看，OCR Extractor 现在支持本地模型了，不用联网就能把 PDF 和图片里的文字提取出来变成可搜索的笔记，隐私更好还免费。

原文

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

09:00

lmarena.ai@lmarena_ai

Anthropic 的 Claude Fable 5 模型在 Vision Arena 排行榜中综合排名第二，并在多个子类别中表现突出。其中，OCR（光学字符识别）单项排名第一，作业和图表理解分别排名第二。Vision Arena 是一个专注于视觉理解能力的评测平台，该成绩表明 Claude Fable 5 在视觉任务上具有较强竞争力。

AI模型 Claude Fable 5 Vision Arena OCR 视觉理解模型评测

推荐理由：Claude Fable 5 在视觉评测中拿下 OCR 第一，做文档处理、教育或图表分析的团队可以重点关注这个模型的实际表现。

原文

6月4日

22:24

Jerry Liu@jerryjliu0

72°

LlamaIndex 在 CVPR 2026 上发布了 ParseBench，这是目前最全面的文档理解基准测试，专门用于评估视觉语言模型（VLM）对真实企业文档的解析能力。该基准包含 2000 页真实企业文档、167K+ 测试规则，覆盖表格、图表、视觉定位、语义格式和内容忠实度五个维度。核心目标是衡量模型能否正确语义理解文档，避免过拟合到特定基准。当前前沿模型更擅长编程、数学和科学推理，而文档 OCR 的 100% 准确解析仍是最终挑战，ParseBench 旨在推动这一方向进步。

论文文档理解基准测试 VLM OCR LlamaIndex

推荐理由：做文档解析、RAG 或 AI Agent 的团队终于有了一个靠谱的评测标准——ParseBench 覆盖了企业文档的真实痛点，建议直接拿去测你的模型或产品。

原文

5月30日

00:41

berryxia@berryxia

72°

百度 PaddlePaddle 发布了 PaddleOCR-VL 1.6，在 OmniDocBench 上达到 96.33% 的 SOTA 成绩，超越开源和商业方案。该版本显著提升了表格识别、稀有字符、印章检测和图表理解能力，尤其适合金融合同、法律文件等复杂文档。与 1.5 版本完全架构兼容，零迁移成本即可使用。高精度解析能力直接提升了 RAG 系统的输入质量，降低了文档智能的门槛。

AI产品 OCR 文档解析 PaddleOCR-VL RAG 法律金融

推荐理由：文档解析是 RAG 和 LLM 应用的关键瓶颈，PaddleOCR-VL 1.6 在复杂场景（表格、印章、稀有字符）上大幅提升，做法律、金融文档处理的团队可以直接替换升级，零迁移成本值得一试。

原文

5月27日

20:57

berryxia@berryxia

腾讯HY实验室联合四家机构发布Chronicles-OCR基准测试，专门评估AI对3000年中国古文字的识别能力。测试包含2800张专家标注图像，覆盖甲骨文、金文、篆书等七大类古文字。结果显示28个前沿多模态模型全部失败，最强模型在甲骨文上仅14%准确率，GPT-5和Gemini 2.5 Pro接近0。更反直觉的是，开启推理模式反而降低表现，模型实际依赖载体（如龟壳、青铜器）而非文字本身进行分类。该测试揭示了AI在文化遗产领域的巨大挑战。

AI模型 OCR 古文字识别多模态模型基准测试文化遗产

推荐理由：这个基准测试戳破了多模态模型在古文字识别上的泡沫——它们根本没在认字，只是认载体。做文化遗产数字化或OCR研究的团队，看完会重新思考模型能力的边界。

原文

5月24日

10:56

Qdrant@qdrant_engine

Qdrant 宣布将在 MistralAI 举办的 AI NOW 巴黎峰会上发表演讲，主题为“使用 MistralAI OCR 和 Qdrant 对杂乱文档进行语义搜索”。演讲将探讨如何结合语义搜索与 OCR 技术，将噪声多、结构混乱的非结构化文档转化为可搜索、可用的知识。该演讲由 Qdrant 开发者倡导者 Chadha Sridi 主讲，旨在展示 MistralAI 与 Qdrant 的联合解决方案。峰会将于巴黎举行，Qdrant 期待与 AI 社区交流。

AI产品语义搜索 OCR Qdrant MistralAI 非结构化文档

推荐理由：做文档搜索或知识管理的团队值得关注——MistralAI OCR + Qdrant 的组合能直接解决非结构化数据难检索的痛点，建议有类似需求的开发者点开了解具体方案。

原文

5月23日

09:12

LlamaIndex@llama_index

LlamaIndex 推出了 ParseBench，这是首个专门为 AI 智能体设计的文档 OCR 基准测试。现有的基准测试无法满足 AI 智能体在实际生产环境中的需求，ParseBench 填补了这一空白。该基准测试旨在评估文档解析器在真实场景下的表现，帮助开发者判断其是否适合投入生产。LlamaIndex 将通过线上研讨会详细解读 ParseBench 的设计原理和应用方法。

AI产品文档解析 OCR 基准测试 AI智能体 LlamaIndex

推荐理由：做文档解析或 AI 智能体开发的团队，终于有了一个贴近真实生产环境的评估标准，建议关注 ParseBench 的细节，看看你的解析器能否通过考验。

原文

5月20日

21:51

berryxia@berryxia

精选

PaddleOCR 3.5 正式发布，支持 Transformers 作为推理后端，PP-OCRv5 和 PaddleOCR-VL 1.5 模型可直接在 Hugging Face 生态中运行。此前将 PaddleOCR 集成到 RAG 或 Document AI 项目需要额外搭建服务栈，现在流程大幅简化。Hugging Face 团队参与了合作，使得 OCR 工具与主流 Transformer 生态无缝对接。输出结果更精准可靠，无需依赖 LLM 来补充。

AI产品 PaddleOCR Hugging Face OCR Transformers 文档智能

推荐理由：做文档智能或 RAG 的团队终于不用在 OCR 和 Transformer 之间搭桥了，PaddleOCR 3.5 直接跑在 Hugging Face 上，省掉一堆服务栈，建议做 Document AI 的开发者点开试试。

原文

5月19日

16:57

Hunyuan@TXhunyuan

腾讯混元团队开源了 Chronicles-OCR，这是一个专门评估视觉大语言模型（VLLM）对古代汉字视觉感知能力的基准。该数据集跨越 3000 年文字演变，涵盖从甲骨文到草书的 7 种历史字体，包含 2800 张均衡分布的图像。基准评估模型在字符定位、细粒度识别、古代文本解析和字体分类四个核心任务上的表现。该工作揭示了视觉分布偏移如何影响模型对古代文字的感知能力，为相关研究提供了重要参考。

论文视觉大语言模型 OCR 古代汉字基准测试开源

推荐理由：做 OCR 或古籍数字化的团队终于有了一个针对古代汉字的专业评估基准，可以直接用来测试自家 VLLM 的视觉感知能力，值得关注。

原文

16:00

berryxia@berryxia

腾讯团队开源了Chronicles-OCR，一个专门用于评估VLLM对古汉字感知能力的基准数据集。该数据集覆盖从甲骨文到草书的3000年演变，包含7种历史字体、2800张来自真实载体的平衡图像。测试任务包括字符定位、细粒度识别、古文字解析和字体分类。结果显示，随着视觉分布的时间漂移，大多数模型的感知能力显著下降。这一工作将AI视觉能力与文化传承紧密结合，为古代历史研究提供了新的工具。

论文古文字识别 OCR 视觉语言模型文化遗产腾讯

推荐理由：古文字识别是AI视觉的硬核边界，做OCR或文化遗产数字化的团队可以直接用这个基准测试自家模型，看看它们穿越回3000年前还能不能认出字。

原文

12:31

LlamaIndex@llama_index

LlamaIndex 推出了 ParseBench，这是首个专门为 AI 智能体设计的文档 OCR 基准测试。现有的基准测试无法满足 AI 智能体在文档解析方面的实际需求，ParseBench 填补了这一空白。该基准测试将帮助开发者评估文档解析器在生产环境中的真实表现。LlamaIndex 将通过线上研讨会详细解读其背后的原理和方法。

AI产品文档解析 OCR 基准测试 AI智能体 LlamaIndex

推荐理由：做文档解析或 AI 智能体应用的开发者终于有了针对性的评估工具，ParseBench 能帮你判断解析器是否真的 ready for production，建议关注后续研讨会细节。

原文

5月17日

14:04

Jerry Liu@jerryjliu0

精选

LlamaIndex CEO Jerry Liu指出，金融领域的AI智能体可分为两类：一是重复性操作工作（如发票处理、贷款发起、KYC），二是开放式研究与报告生成（如尽职调查、股票研究）。他在纽约的研讨会上强调，构建高质量文档上下文层需要严格的OCR层、评估检查和良好的人机交互审核UI/UX，因为数字的微小错误可能导致灾难性后果。他分享了演讲幻灯片和Logan的仓库，后者展示了构建带完整人机交互审核的金融文档解析流水线。LlamaIndex的核心使命是为金融等领域的AI智能体提取最高质量的文档上下文。

AI产品金融AI 文档处理 OCR 人机交互审核 LlamaIndex

推荐理由：金融从业者做AI智能体时，文档上下文质量直接决定成败——LlamaIndex的实践方案（OCR+评估+人机审核）值得参考，尤其是处理发票、KYC等场景的团队建议点开。

原文

5月13日

18:18

berryxia@berryxia

Interfaze 提出了一种全新混合架构，将任务专用的 DNN/CNN 编码器与全能 Transformer 融合，在 OCR、视觉、STT、结构化输出等确定性任务上准确率超越 Gemini-3-Flash、Claude-Sonnet-4.6、GPT-5.4-Mini 和 Grok-4.3。该架构通过 <task> 标签实现部分模型激活，大幅提升速度和性价比。在 9 个硬核基准上全面领先，尤其在高频场景中速度和成本优势明显。作者认为，未来真实生产力任务不需要越来越大的通用模型，而是需要这种“专为确定性任务而生”的混合架构。

AI模型 Interfaze 混合架构 OCR 视觉模型确定性任务

推荐理由：做 OCR、视觉或音频处理的团队，终于有了一个又准又快又便宜的替代方案——Interfaze 用混合架构把通用大模型的痛点解决了，建议直接看博客跑一下自己的用例。

原文