03:06AK@_akhaliq百度发布的Unlimited-OCR模型在Hugging Face模型排行榜上位列第一,超越其他模型。该模型专注于OCR文字识别任务,具体基准成绩尚未公布。其排名基于社区下载量和交互数据,反映出较高的关注度。AI模型baidu/Unlimited-OCRHugging FaceOCR文字识别1 个信源在谈推荐理由:百度这个OCR模型居然冲到Hugging Face第一了,想搞文字识别的可以看看它有什么本事。原文
01:31vLLM@vllm_project精选百度Unlimited-OCR现已集成到vLLM推理框架中,基于Reference Sliding Window Attention(R-SWA)机制实现恒定KV缓存,避免内存暴涨和速度下降。该模型能在32K上下文预算下一次性转录40+页文档,且编辑距离极低。在6K输出token场景下,推理速度比DeepSeek-OCR快35%,GPU内存和吞吐量保持恒定。AI模型Unlimited-OCRBaiduvLLMOCRR-SWA1 个信源在谈推荐理由:百度开源了Unlimited-OCR,在vLLM上跑,能一次性解析整本书,内存不涨,比DeepSeek-OCR快35%,做文档OCR的好东西。原文
21:48berryxia@berryxia精选77°PaddleOCR 发布 PP-OCRv6 系列,提供 Tiny、Small、Medium 三种尺寸,分别适配移动端、CPU 文档系统和高并发 API。在 A100 GPU 上单张推理仅需 0.13 秒,Intel CPU 上相比 v5 提速 3.9 至 5.2 倍,Apple M4 配合 ONNX Runtime 可达到 0.35 秒。官方强调轻量架构与高质量训练数据比单纯扩大参数规模更实用。AI模型PaddleOCRPP-OCRv6部署优化轻量模型OCR2 个信源在谈推荐理由:PaddleOCR 把 v6 的部署数据拉得很细,A100 0.13 秒、M4 0.35 秒,还有三种尺寸选,想在生产环境搭 OCR 的直接抄作业。原文
10:09berryxia@berryxiaPP-OCRv6已正式上架Hugging Face平台。本次更新新增transformers和ONNX Runtime两个推理后端,用户可以通过统一API在不同框架间无缝切换。相比PP-OCRv5,PP-OCRv6在字符识别精度上有进一步提升。该版本尤其适合希望在transformers生态中直接使用高性能OCR的开发者。AI模型PaddleOCRPP-OCRv6Hugging FacetransformersOCR推荐理由:PaddleOCR的PP-OCRv6上HF了,支持transformers和ONNX Runtime双后端,切换框架不用改代码,超实用。原文
09:30Jerry Liu@jerryjliu0精选Unlimited OCR是百度开源的OCR模型,总参数量3B,仅500M激活。它在表格解析和阅读顺序方面表现优秀,在OmniDocBench v1.5和v1.6上达到SOTA。核心创新是Reference Sliding Window Attention(R-SWA),能保持恒定KV缓存大小,单次前向传递处理40+页文档。与PaddleOCR-VL-1.6对比显示,它在语义格式和图表方面略有不足。AI模型Unlimited OCRBaiduPaddleOCR-VL-1.6OCR开源模型7 个信源在谈推荐理由:百度开源了Unlimited OCR,3B参数却只有500M激活,表格解析超强,能一次性读完40页文档,比PaddleOCR-VL-1.6强在表格和阅读顺序上。试试看?原文
08:26Jerry Liu@jerryjliu0精选Jerry Liu 发布了 Mistral OCR 在 ParseBench 上的更新结果。该模型的总体得分超过了 GPT-5.5,仅略低于 Gemini 3.1 Pro。在内容忠实度、语义格式和视觉定位方面表现优秀,在表格处理上表现一般,图表能力有限。这些结果展示了该价格区间内模型的竞争力。AI模型Mistral OCRGPT-5.5Gemini 3.1 ProParseBenchOCR推荐理由:Mistral OCR 在 ParseBench 上打败了 GPT-5.5,离 Gemini 3.1 Pro 也不远,价格还便宜,做文档解析很值。原文
01:18Jerry Liu@jerryjliu0精选Mistral OCR 在 ParseBench 上与多个前沿和开源权重模型进行对比测试。它在语义格式化方面表现突出,能准确处理删除线、上下标、标题层级和链接。在内容忠实度(阅读顺序、幻觉、遗漏)和视觉定位(边界框)上也具有竞争力。表格处理能力一般,几乎没有图表能力。其价格明显低于 Azure Doc Intelligence 和 AWS Textract 等 OCR 服务商。AI模型Mistral OCRParseBenchOCR语义格式化基准测试推荐理由:Mistral OCR 在 ParseBench 上语义格式化很强,价格还比 Azure/AWS 便宜,适合做高质量 OCR 又不愿花大价钱的场景。原文
12:39小互@imxiaohu精选百度开源的Unlimited OCR模型采用参考滑动窗口注意力(R-SWA)技术,能在32K上下文内一次前向推理处理数十页文档,无需分页。模型仅3B参数、500M激活,显存和算力不随页数增长。传统逐页OCR需要拼接结果,而R-SWA模拟人类连续抄写,始终记忆固定大小的文本。该模型据称基于DeepSeek OCR核心贡献者开发,已在标准长度文档上测试。AI模型Unlimited OCR百度R-SWAOCR开源模型8 个信源在谈推荐理由:百度开源了一款OCR模型,3B参数就能一次处理几十页PDF,不用切页,比传统逐页OCR强太多。原文
07:34Mistral AI@MistralAIMistral 推出 OCR 4,独立标注员对600多份真实文档进行盲评,涵盖12种以上语言。在所有对比系统中,OCR 4 被优先选择,平均胜率达72%。该结果基于随机排序的双盲测试,标注员无法识别系统来源。AI模型MistralOCR 4OCR文档识别多语言推荐理由:Mistral 的 OCR 4 盲测赢了所有对手,处理多国语言文档很稳,平均胜率72%,值得试试。原文
03:28AK@_akhaliq百度发布了名为Unlimited-OCR的OCR服务。该产品提供无限次数的OCR识别功能。用户可通过调用API或直接使用。目前暂无定价信息。AI产品百度Unlimited-OCROCR文字识别8 个信源在谈推荐理由:百度出了个Unlimited-OCR,无限次OCR识别,做文字提取的可以试试。原文
14:46向阳乔木@vista876°百度发布Unlimited OCR,模拟人类抄书注意力模式,每生成一个token时参考完整图像和提示词,但输出侧仅回看前128个token。KV缓存固定为128长度,避免长文档推理时内存爆炸。在超长文档OCR任务上效果显著,已在GitHub和Hugging Face开源。AI模型UnlimitedOCR百度OCR推理模型开源模型6 个信源在谈推荐理由:百度开源了一个超聪明的OCR方案,用固定128 token缓存模拟人眼抄书,长文档不爆内存,快去试试!原文
14:45向阳乔木@vista8百度近日开源了Unlimited OCR模型,参数量3B但仅需500M激活参数。该模型参考了滑动注意力窗口技术,在OCR任务上取得了出乎意料的好效果。轻量级设计使其更易于部署。AI模型百度Unlimited OCROCR开源模型滑动注意力6 个信源在谈推荐理由:百度刚开源的Unlimited OCR,3B参数只激活500M,效果居然这么强,做OCR的赶紧看看。原文
13:55Geek@geekbb精选百度开源了一个基于DeepSeek-OCR升级的视觉语言模型OCR项目,支持一次性解析超长文档。该模型提供两种推理模式:gundam模式用于处理单张图片中的密集文字,base模式适用于多页文档或PDF。项目代码已在GitHub上发布,允许开发者直接使用。AI模型百度DeepSeek-OCR视觉语言模型OCR开源模型推荐理由:百度开源的OCR模型,在DeepSeek-OCR上做了升级,能一次性处理超长文档和密集文字,两种模式很实用。原文
10:33berryxia@berryxia百度开源的 Unlimited OCR 模型采用 R-SWA 注意力机制,支持 32K 上下文窗口,一次前向推理即可完成几十页文档的转录。其核心卖点是 One-Shot Long-Horizon Parsing,无需分页处理,KV Cache 大小恒定。技术报告提到该模型融合了来自 DeepSeek-OCR 的高压缩编码器,且部分核心贡献者与 DeepSeek 有渊源。AI模型Unlimited OCR百度R-SWAOCR开源模型6 个信源在谈推荐理由:百度搞了个挺牛的 OCR 模型,能一口气读几十页,不像以前那样一页一页循环。开源了,谁都能试试。原文
00:47berryxia@berryxia精选72°百度在Hugging Face上开源了Unlimited-OCR模型,其核心创新是R-SWA(Reference Sliding Window Attention),让KV Cache保持恒定,避免随页数爆炸。该模型可一次性解析单张图或多页PDF,在OmniDocBench上获得93分,比DeepSeek-OCR高出6个百分点。它取代了传统“分块+拼接”流程,实现端到端长文档理解,输出质量更高。AI模型Unlimited-OCR百度OmniDocBenchDeepSeek-OCROCR5 个信源在谈推荐理由:百度开源了Unlimited-OCR,几百页文档一次搞定,不用分块拼接,速度稳准狠,OmniDocBench上93分压了DeepSeek-OCR一头。原文
11:37berryxia@berryxia精选开发者发布了一个开源的本地OCR工作台,基于PP-OCRv6模型,在Mac上利用CoreML加速。提供Tiny(1.5MB)、Small、Medium(34.5MB)三个模型,支持图片上传、批量处理和导出CSV/Markdown/Excel。完全本地运行,苹果硅芯片自动启用CoreML加速,Intel Mac和Linux可用CPU。还包含浏览器版Tiny模型和与OmniDocBench、Apple Vision对比的评测脚本,在弯曲表面、点阵字体等难例场景表现良好。AI产品PP-OCRv6CoreMLMacOCR开源模型推荐理由:老哥把PP-OCRv6做成了Mac本地工具,一键切换模型大小,还能批量导出,离线用超方便。原文
15:57Geek@geekbbOCR Extractor 是一款 Obsidian 插件,现已支持本地 OCR 模型,无需联网即可运行。它能够从 PDF、图片等附件中提取文本,并自动保存为可搜索的 Markdown 文件。本地模型保障用户数据隐私,同时提升 Obsidian 中的文档管理效率。该插件已在 GitHub 上开源。AI产品ObsidianOCROCR Extractor本地模型插件推荐理由:Obsidian 用户快看,OCR Extractor 现在支持本地模型了,不用联网就能把 PDF 和图片里的文字提取出来变成可搜索的笔记,隐私更好还免费。原文
09:00lmarena.ai@lmarena_aiAnthropic 的 Claude Fable 5 模型在 Vision Arena 排行榜中综合排名第二,并在多个子类别中表现突出。其中,OCR(光学字符识别)单项排名第一,作业和图表理解分别排名第二。Vision Arena 是一个专注于视觉理解能力的评测平台,该成绩表明 Claude Fable 5 在视觉任务上具有较强竞争力。AI模型Claude Fable 5Vision ArenaOCR视觉理解模型评测10 个信源在谈推荐理由:Claude Fable 5 在视觉评测中拿下 OCR 第一,做文档处理、教育或图表分析的团队可以重点关注这个模型的实际表现。原文
22:24Jerry Liu@jerryjliu072°LlamaIndex 在 CVPR 2026 上发布了 ParseBench,这是目前最全面的文档理解基准测试,专门用于评估视觉语言模型(VLM)对真实企业文档的解析能力。该基准包含 2000 页真实企业文档、167K+ 测试规则,覆盖表格、图表、视觉定位、语义格式和内容忠实度五个维度。核心目标是衡量模型能否正确语义理解文档,避免过拟合到特定基准。当前前沿模型更擅长编程、数学和科学推理,而文档 OCR 的 100% 准确解析仍是最终挑战,ParseBench 旨在推动这一方向进步。论文文档理解基准测试VLMOCRLlamaIndex推荐理由:做文档解析、RAG 或 AI Agent 的团队终于有了一个靠谱的评测标准——ParseBench 覆盖了企业文档的真实痛点,建议直接拿去测你的模型或产品。原文
00:41berryxia@berryxia72°百度 PaddlePaddle 发布了 PaddleOCR-VL 1.6,在 OmniDocBench 上达到 96.33% 的 SOTA 成绩,超越开源和商业方案。该版本显著提升了表格识别、稀有字符、印章检测和图表理解能力,尤其适合金融合同、法律文件等复杂文档。与 1.5 版本完全架构兼容,零迁移成本即可使用。高精度解析能力直接提升了 RAG 系统的输入质量,降低了文档智能的门槛。AI产品OCR文档解析PaddleOCR-VLRAG法律金融推荐理由:文档解析是 RAG 和 LLM 应用的关键瓶颈,PaddleOCR-VL 1.6 在复杂场景(表格、印章、稀有字符)上大幅提升,做法律、金融文档处理的团队可以直接替换升级,零迁移成本值得一试。原文
20:57berryxia@berryxia腾讯HY实验室联合四家机构发布Chronicles-OCR基准测试,专门评估AI对3000年中国古文字的识别能力。测试包含2800张专家标注图像,覆盖甲骨文、金文、篆书等七大类古文字。结果显示28个前沿多模态模型全部失败,最强模型在甲骨文上仅14%准确率,GPT-5和Gemini 2.5 Pro接近0。更反直觉的是,开启推理模式反而降低表现,模型实际依赖载体(如龟壳、青铜器)而非文字本身进行分类。该测试揭示了AI在文化遗产领域的巨大挑战。AI模型OCR古文字识别多模态模型基准测试文化遗产推荐理由:这个基准测试戳破了多模态模型在古文字识别上的泡沫——它们根本没在认字,只是认载体。做文化遗产数字化或OCR研究的团队,看完会重新思考模型能力的边界。原文
10:56Qdrant@qdrant_engineQdrant 宣布将在 MistralAI 举办的 AI NOW 巴黎峰会上发表演讲,主题为“使用 MistralAI OCR 和 Qdrant 对杂乱文档进行语义搜索”。演讲将探讨如何结合语义搜索与 OCR 技术,将噪声多、结构混乱的非结构化文档转化为可搜索、可用的知识。该演讲由 Qdrant 开发者倡导者 Chadha Sridi 主讲,旨在展示 MistralAI 与 Qdrant 的联合解决方案。峰会将于巴黎举行,Qdrant 期待与 AI 社区交流。AI产品语义搜索OCRQdrantMistralAI非结构化文档推荐理由:做文档搜索或知识管理的团队值得关注——MistralAI OCR + Qdrant 的组合能直接解决非结构化数据难检索的痛点,建议有类似需求的开发者点开了解具体方案。原文
09:12LlamaIndex@llama_indexLlamaIndex 推出了 ParseBench,这是首个专门为 AI 智能体设计的文档 OCR 基准测试。现有的基准测试无法满足 AI 智能体在实际生产环境中的需求,ParseBench 填补了这一空白。该基准测试旨在评估文档解析器在真实场景下的表现,帮助开发者判断其是否适合投入生产。LlamaIndex 将通过线上研讨会详细解读 ParseBench 的设计原理和应用方法。AI产品文档解析OCR基准测试AI智能体LlamaIndex推荐理由:做文档解析或 AI 智能体开发的团队,终于有了一个贴近真实生产环境的评估标准,建议关注 ParseBench 的细节,看看你的解析器能否通过考验。原文
21:51berryxia@berryxia精选PaddleOCR 3.5 正式发布,支持 Transformers 作为推理后端,PP-OCRv5 和 PaddleOCR-VL 1.5 模型可直接在 Hugging Face 生态中运行。此前将 PaddleOCR 集成到 RAG 或 Document AI 项目需要额外搭建服务栈,现在流程大幅简化。Hugging Face 团队参与了合作,使得 OCR 工具与主流 Transformer 生态无缝对接。输出结果更精准可靠,无需依赖 LLM 来补充。AI产品PaddleOCRHugging FaceOCRTransformers文档智能推荐理由:做文档智能或 RAG 的团队终于不用在 OCR 和 Transformer 之间搭桥了,PaddleOCR 3.5 直接跑在 Hugging Face 上,省掉一堆服务栈,建议做 Document AI 的开发者点开试试。原文
16:57Hunyuan@TXhunyuan腾讯混元团队开源了 Chronicles-OCR,这是一个专门评估视觉大语言模型(VLLM)对古代汉字视觉感知能力的基准。该数据集跨越 3000 年文字演变,涵盖从甲骨文到草书的 7 种历史字体,包含 2800 张均衡分布的图像。基准评估模型在字符定位、细粒度识别、古代文本解析和字体分类四个核心任务上的表现。该工作揭示了视觉分布偏移如何影响模型对古代文字的感知能力,为相关研究提供了重要参考。论文视觉大语言模型OCR古代汉字基准测试开源推荐理由:做 OCR 或古籍数字化的团队终于有了一个针对古代汉字的专业评估基准,可以直接用来测试自家 VLLM 的视觉感知能力,值得关注。原文
16:00berryxia@berryxia腾讯团队开源了Chronicles-OCR,一个专门用于评估VLLM对古汉字感知能力的基准数据集。该数据集覆盖从甲骨文到草书的3000年演变,包含7种历史字体、2800张来自真实载体的平衡图像。测试任务包括字符定位、细粒度识别、古文字解析和字体分类。结果显示,随着视觉分布的时间漂移,大多数模型的感知能力显著下降。这一工作将AI视觉能力与文化传承紧密结合,为古代历史研究提供了新的工具。论文古文字识别OCR视觉语言模型文化遗产腾讯推荐理由:古文字识别是AI视觉的硬核边界,做OCR或文化遗产数字化的团队可以直接用这个基准测试自家模型,看看它们穿越回3000年前还能不能认出字。原文
12:31LlamaIndex@llama_indexLlamaIndex 推出了 ParseBench,这是首个专门为 AI 智能体设计的文档 OCR 基准测试。现有的基准测试无法满足 AI 智能体在文档解析方面的实际需求,ParseBench 填补了这一空白。该基准测试将帮助开发者评估文档解析器在生产环境中的真实表现。LlamaIndex 将通过线上研讨会详细解读其背后的原理和方法。AI产品文档解析OCR基准测试AI智能体LlamaIndex推荐理由:做文档解析或 AI 智能体应用的开发者终于有了针对性的评估工具,ParseBench 能帮你判断解析器是否真的 ready for production,建议关注后续研讨会细节。原文
14:04Jerry Liu@jerryjliu0精选LlamaIndex CEO Jerry Liu指出,金融领域的AI智能体可分为两类:一是重复性操作工作(如发票处理、贷款发起、KYC),二是开放式研究与报告生成(如尽职调查、股票研究)。他在纽约的研讨会上强调,构建高质量文档上下文层需要严格的OCR层、评估检查和良好的人机交互审核UI/UX,因为数字的微小错误可能导致灾难性后果。他分享了演讲幻灯片和Logan的仓库,后者展示了构建带完整人机交互审核的金融文档解析流水线。LlamaIndex的核心使命是为金融等领域的AI智能体提取最高质量的文档上下文。AI产品金融AI文档处理OCR人机交互审核LlamaIndex推荐理由:金融从业者做AI智能体时,文档上下文质量直接决定成败——LlamaIndex的实践方案(OCR+评估+人机审核)值得参考,尤其是处理发票、KYC等场景的团队建议点开。原文
18:18berryxia@berryxiaInterfaze 提出了一种全新混合架构,将任务专用的 DNN/CNN 编码器与全能 Transformer 融合,在 OCR、视觉、STT、结构化输出等确定性任务上准确率超越 Gemini-3-Flash、Claude-Sonnet-4.6、GPT-5.4-Mini 和 Grok-4.3。该架构通过 <task> 标签实现部分模型激活,大幅提升速度和性价比。在 9 个硬核基准上全面领先,尤其在高频场景中速度和成本优势明显。作者认为,未来真实生产力任务不需要越来越大的通用模型,而是需要这种“专为确定性任务而生”的混合架构。AI模型Interfaze混合架构OCR视觉模型确定性任务推荐理由:做 OCR、视觉或音频处理的团队,终于有了一个又准又快又便宜的替代方案——Interfaze 用混合架构把通用大模型的痛点解决了,建议直接看博客跑一下自己的用例。原文