03:06AK@_akhaliq百度发布的Unlimited-OCR模型在Hugging Face模型排行榜上位列第一,超越其他模型。该模型专注于OCR文字识别任务,具体基准成绩尚未公布。其排名基于社区下载量和交互数据,反映出较高的关注度。AI模型baidu/Unlimited-OCRHugging FaceOCR文字识别1 个信源在谈推荐理由:百度这个OCR模型居然冲到Hugging Face第一了,想搞文字识别的可以看看它有什么本事。原文
01:31vLLM@vllm_project精选百度Unlimited-OCR现已集成到vLLM推理框架中,基于Reference Sliding Window Attention(R-SWA)机制实现恒定KV缓存,避免内存暴涨和速度下降。该模型能在32K上下文预算下一次性转录40+页文档,且编辑距离极低。在6K输出token场景下,推理速度比DeepSeek-OCR快35%,GPU内存和吞吐量保持恒定。AI模型Unlimited-OCRBaiduvLLMOCRR-SWA1 个信源在谈推荐理由:百度开源了Unlimited-OCR,在vLLM上跑,能一次性解析整本书,内存不涨,比DeepSeek-OCR快35%,做文档OCR的好东西。原文
14:34量子位@林樾百度在GitHub开源了全新OCR模型,模型名称暂未公开,但根据展示能一次性识别整本图书内容。该模型作者被社区推测为前DeepSeek研究员。项目已在GitHub托管,提供预训练权重和API文档。AI模型百度OCR开源模型DeepSeek推荐理由:百度搞了个能扫整本书的OCR,还开源了,做文档处理的可以试试。原文
21:48berryxia@berryxia精选77°PaddleOCR 发布 PP-OCRv6 系列,提供 Tiny、Small、Medium 三种尺寸,分别适配移动端、CPU 文档系统和高并发 API。在 A100 GPU 上单张推理仅需 0.13 秒,Intel CPU 上相比 v5 提速 3.9 至 5.2 倍,Apple M4 配合 ONNX Runtime 可达到 0.35 秒。官方强调轻量架构与高质量训练数据比单纯扩大参数规模更实用。AI模型PaddleOCRPP-OCRv6部署优化轻量模型OCR2 个信源在谈推荐理由:PaddleOCR 把 v6 的部署数据拉得很细,A100 0.13 秒、M4 0.35 秒,还有三种尺寸选,想在生产环境搭 OCR 的直接抄作业。原文
15:45IT之家(博客/媒体)精选71°百度于6月22日开源Unlimited OCR模型,总参数30亿,推理时仅激活5亿参数。该模型基于DeepSeek OCR架构,采用两级视觉编码和16倍token压缩,将1024×1024的PDF图像压缩为256个视觉token。训练基于DeepSeek OCR检查点继续训练4000步,使用约200万文档样本,在8×16 A800 GPU上运行。在OmniDocBench v1.5上整体得分93.23,高于DeepSeek OCR的87.01和DeepSeek OCR 2的89.17。文本编辑距离0.038,公式CDM 92.61,表格TEDS 90.93,读序编辑距离0.045。AI模型Unlimited OCRDeepSeek OCR百度OCR文档解析5 个信源在谈推荐理由:百度开源了一个能一次性解析长文档的OCR模型,不再越处理越慢,性能还超过了DeepSeek OCR。原文
13:45marktechpost@Asif Razzaq精选百度开源Unlimited OCR,一个3B参数的MoE模型,能在单次前向推理中解析数十页文档。其突破性的Reference Sliding Window Attention (R-SWA)机制使KV缓存保持恒定,随着输出增长内存和延迟不变。模型在OmniDocBench v1.5基准上获得93.23分,比DeepSeek OCR基线高出6.22分。该模型采用MIT许可证开源。AI模型Unlimited OCRBaiduDeepSeekOmniDocBenchOCR5 个信源在谈推荐理由:百度开源了一个3B参数的OCR模型,能一口气解析几十页文档,KV缓存不膨胀,性能直接碾压DeepSeek。原文
10:09berryxia@berryxiaPP-OCRv6已正式上架Hugging Face平台。本次更新新增transformers和ONNX Runtime两个推理后端,用户可以通过统一API在不同框架间无缝切换。相比PP-OCRv5,PP-OCRv6在字符识别精度上有进一步提升。该版本尤其适合希望在transformers生态中直接使用高性能OCR的开发者。AI模型PaddleOCRPP-OCRv6Hugging FacetransformersOCR推荐理由:PaddleOCR的PP-OCRv6上HF了,支持transformers和ONNX Runtime双后端,切换框架不用改代码,超实用。原文
09:30Jerry Liu@jerryjliu0精选Unlimited OCR是百度开源的OCR模型,总参数量3B,仅500M激活。它在表格解析和阅读顺序方面表现优秀,在OmniDocBench v1.5和v1.6上达到SOTA。核心创新是Reference Sliding Window Attention(R-SWA),能保持恒定KV缓存大小,单次前向传递处理40+页文档。与PaddleOCR-VL-1.6对比显示,它在语义格式和图表方面略有不足。AI模型Unlimited OCRBaiduPaddleOCR-VL-1.6OCR开源模型7 个信源在谈推荐理由:百度开源了Unlimited OCR,3B参数却只有500M激活,表格解析超强,能一次性读完40页文档,比PaddleOCR-VL-1.6强在表格和阅读顺序上。试试看?原文
08:26Jerry Liu@jerryjliu0精选Jerry Liu 发布了 Mistral OCR 在 ParseBench 上的更新结果。该模型的总体得分超过了 GPT-5.5,仅略低于 Gemini 3.1 Pro。在内容忠实度、语义格式和视觉定位方面表现优秀,在表格处理上表现一般,图表能力有限。这些结果展示了该价格区间内模型的竞争力。AI模型Mistral OCRGPT-5.5Gemini 3.1 ProParseBenchOCR推荐理由:Mistral OCR 在 ParseBench 上打败了 GPT-5.5,离 Gemini 3.1 Pro 也不远,价格还便宜,做文档解析很值。原文
01:18Jerry Liu@jerryjliu0精选Mistral OCR 在 ParseBench 上与多个前沿和开源权重模型进行对比测试。它在语义格式化方面表现突出,能准确处理删除线、上下标、标题层级和链接。在内容忠实度(阅读顺序、幻觉、遗漏)和视觉定位(边界框)上也具有竞争力。表格处理能力一般,几乎没有图表能力。其价格明显低于 Azure Doc Intelligence 和 AWS Textract 等 OCR 服务商。AI模型Mistral OCRParseBenchOCR语义格式化基准测试推荐理由:Mistral OCR 在 ParseBench 上语义格式化很强,价格还比 Azure/AWS 便宜,适合做高质量 OCR 又不愿花大价钱的场景。原文
12:39小互@imxiaohu精选百度开源的Unlimited OCR模型采用参考滑动窗口注意力(R-SWA)技术,能在32K上下文内一次前向推理处理数十页文档,无需分页。模型仅3B参数、500M激活,显存和算力不随页数增长。传统逐页OCR需要拼接结果,而R-SWA模拟人类连续抄写,始终记忆固定大小的文本。该模型据称基于DeepSeek OCR核心贡献者开发,已在标准长度文档上测试。AI模型Unlimited OCR百度R-SWAOCR开源模型8 个信源在谈推荐理由:百度开源了一款OCR模型,3B参数就能一次处理几十页PDF,不用切页,比传统逐页OCR强太多。原文
07:34Mistral AI@MistralAIMistral 推出 OCR 4,独立标注员对600多份真实文档进行盲评,涵盖12种以上语言。在所有对比系统中,OCR 4 被优先选择,平均胜率达72%。该结果基于随机排序的双盲测试,标注员无法识别系统来源。AI模型MistralOCR 4OCR文档识别多语言推荐理由:Mistral 的 OCR 4 盲测赢了所有对手,处理多国语言文档很稳,平均胜率72%,值得试试。原文
03:28AK@_akhaliq百度发布了名为Unlimited-OCR的OCR服务。该产品提供无限次数的OCR识别功能。用户可通过调用API或直接使用。目前暂无定价信息。AI产品百度Unlimited-OCROCR文字识别8 个信源在谈推荐理由:百度出了个Unlimited-OCR,无限次OCR识别,做文字提取的可以试试。原文
16:21Pandaily@contact@pandaily.com (Pandaily)百度推出Unlimited-OCR技术,核心是Constant KV Cache方法,专为超长文档设计。该技术在长文档OCR任务上取得SOTA性能,解决了传统KV缓存随文档长度线性增长的问题。Constant KV Cache将缓存大小保持常数,显著降低内存占用和推理延迟。AI模型Unlimited-OCRConstant KV Cache百度OCR长文档8 个信源在谈推荐理由:百度搞了个Unlimited-OCR,用Constant KV Cache解决长文档识别,缓存不爆炸,性能还最强,适合处理几百页的合同或文献。原文
14:46向阳乔木@vista876°百度发布Unlimited OCR,模拟人类抄书注意力模式,每生成一个token时参考完整图像和提示词,但输出侧仅回看前128个token。KV缓存固定为128长度,避免长文档推理时内存爆炸。在超长文档OCR任务上效果显著,已在GitHub和Hugging Face开源。AI模型UnlimitedOCR百度OCR推理模型开源模型6 个信源在谈推荐理由:百度开源了一个超聪明的OCR方案,用固定128 token缓存模拟人眼抄书,长文档不爆内存,快去试试!原文
14:45向阳乔木@vista8百度近日开源了Unlimited OCR模型,参数量3B但仅需500M激活参数。该模型参考了滑动注意力窗口技术,在OCR任务上取得了出乎意料的好效果。轻量级设计使其更易于部署。AI模型百度Unlimited OCROCR开源模型滑动注意力6 个信源在谈推荐理由:百度刚开源的Unlimited OCR,3B参数只激活500M,效果居然这么强,做OCR的赶紧看看。原文
13:55Geek@geekbb精选百度开源了一个基于DeepSeek-OCR升级的视觉语言模型OCR项目,支持一次性解析超长文档。该模型提供两种推理模式:gundam模式用于处理单张图片中的密集文字,base模式适用于多页文档或PDF。项目代码已在GitHub上发布,允许开发者直接使用。AI模型百度DeepSeek-OCR视觉语言模型OCR开源模型推荐理由:百度开源的OCR模型,在DeepSeek-OCR上做了升级,能一次性处理超长文档和密集文字,两种模式很实用。原文
12:05arXiv: DeepSeek@Youyang Yin, Huanhuan Liu, YY, Qunyi Xie, Chaorun Liu, Shiqi Yang, Shaohua Wang, Zhanlong Liu, Hao Zou, Jinyue Chen, Shu Wei, Jingjing Wu, Mingxin Huang, Zhen Wu, Guibin Wang, Tengyu Du, Lei JiaUnlimited OCR 模型以 DeepSeek OCR 为基线,将所有解码器注意力层替换为 Reference Sliding Window Attention (R-SWA),使解码过程中 KV 缓存保持恒定,不再随输出长度增长。在标准最大长度 32K 下,Unlimited OCR 可一次性转录数十页文档。相比传统端到端 OCR 模型,Unlimited OCR 解决了长序列中内存和速度下降的问题。R-SWA 是一种通用解析注意力机制,还可应用于 ASR、翻译等任务。代码和权重已在 GitHub 开源。论文Unlimited OCRDeepSeek OCRR-SWAOCR推理效率5 个信源在谈推荐理由:百度新出的 Unlimted OCR 用了一种叫 R-SWA 的注意力机制,让它处理几十页文档时不会变慢,内存占用也恒定。想做长文档 OCR 的可以试试。原文
10:33berryxia@berryxia百度开源的 Unlimited OCR 模型采用 R-SWA 注意力机制,支持 32K 上下文窗口,一次前向推理即可完成几十页文档的转录。其核心卖点是 One-Shot Long-Horizon Parsing,无需分页处理,KV Cache 大小恒定。技术报告提到该模型融合了来自 DeepSeek-OCR 的高压缩编码器,且部分核心贡献者与 DeepSeek 有渊源。AI模型Unlimited OCR百度R-SWAOCR开源模型6 个信源在谈推荐理由:百度搞了个挺牛的 OCR 模型,能一口气读几十页,不像以前那样一页一页循环。开源了,谁都能试试。原文
00:47berryxia@berryxia精选72°百度在Hugging Face上开源了Unlimited-OCR模型,其核心创新是R-SWA(Reference Sliding Window Attention),让KV Cache保持恒定,避免随页数爆炸。该模型可一次性解析单张图或多页PDF,在OmniDocBench上获得93分,比DeepSeek-OCR高出6个百分点。它取代了传统“分块+拼接”流程,实现端到端长文档理解,输出质量更高。AI模型Unlimited-OCR百度OmniDocBenchDeepSeek-OCROCR5 个信源在谈推荐理由:百度开源了Unlimited-OCR,几百页文档一次搞定,不用分块拼接,速度稳准狠,OmniDocBench上93分压了DeepSeek-OCR一头。原文
10:57arXiv cs.LG@Denis Peskoff, Joe Barrow, Christopher Vu, Diag DavenportLOCUS是美国首个大规模地方法规语料库,收录9,239个市县的法典。该数据集通过OCR处理了多种文档格式,覆盖3,144个县中的2,309个,覆盖多数美国人口。研究团队训练了基于ModernBERT的分类器,用于分析法规的模糊性和家长主义等维度。LOCUS-v1及其衍生模型已在Hugging Face上开源。论文LOCUSLegal AI数据集OCR法规语料库推荐理由:法律AI研究者有福了!LOCUS提供了9,239个美国地方法规的机器可读语料,还附带了基于ModernBERT的分析工具,解决碎片化问题。原文
11:37berryxia@berryxia精选开发者发布了一个开源的本地OCR工作台,基于PP-OCRv6模型,在Mac上利用CoreML加速。提供Tiny(1.5MB)、Small、Medium(34.5MB)三个模型,支持图片上传、批量处理和导出CSV/Markdown/Excel。完全本地运行,苹果硅芯片自动启用CoreML加速,Intel Mac和Linux可用CPU。还包含浏览器版Tiny模型和与OmniDocBench、Apple Vision对比的评测脚本,在弯曲表面、点阵字体等难例场景表现良好。AI产品PP-OCRv6CoreMLMacOCR开源模型推荐理由:老哥把PP-OCRv6做成了Mac本地工具,一键切换模型大小,还能批量导出,离线用超方便。原文
15:57Geek@geekbbOCR Extractor 是一款 Obsidian 插件,现已支持本地 OCR 模型,无需联网即可运行。它能够从 PDF、图片等附件中提取文本,并自动保存为可搜索的 Markdown 文件。本地模型保障用户数据隐私,同时提升 Obsidian 中的文档管理效率。该插件已在 GitHub 上开源。AI产品ObsidianOCROCR Extractor本地模型插件推荐理由:Obsidian 用户快看,OCR Extractor 现在支持本地模型了,不用联网就能把 PDF 和图片里的文字提取出来变成可搜索的笔记,隐私更好还免费。原文
09:00lmarena.ai@lmarena_aiAnthropic 的 Claude Fable 5 模型在 Vision Arena 排行榜中综合排名第二,并在多个子类别中表现突出。其中,OCR(光学字符识别)单项排名第一,作业和图表理解分别排名第二。Vision Arena 是一个专注于视觉理解能力的评测平台,该成绩表明 Claude Fable 5 在视觉任务上具有较强竞争力。AI模型Claude Fable 5Vision ArenaOCR视觉理解模型评测10 个信源在谈推荐理由:Claude Fable 5 在视觉评测中拿下 OCR 第一,做文档处理、教育或图表分析的团队可以重点关注这个模型的实际表现。原文
22:24Jerry Liu@jerryjliu072°LlamaIndex 在 CVPR 2026 上发布了 ParseBench,这是目前最全面的文档理解基准测试,专门用于评估视觉语言模型(VLM)对真实企业文档的解析能力。该基准包含 2000 页真实企业文档、167K+ 测试规则,覆盖表格、图表、视觉定位、语义格式和内容忠实度五个维度。核心目标是衡量模型能否正确语义理解文档,避免过拟合到特定基准。当前前沿模型更擅长编程、数学和科学推理,而文档 OCR 的 100% 准确解析仍是最终挑战,ParseBench 旨在推动这一方向进步。论文文档理解基准测试VLMOCRLlamaIndex推荐理由:做文档解析、RAG 或 AI Agent 的团队终于有了一个靠谱的评测标准——ParseBench 覆盖了企业文档的真实痛点,建议直接拿去测你的模型或产品。原文
00:41berryxia@berryxia72°百度 PaddlePaddle 发布了 PaddleOCR-VL 1.6,在 OmniDocBench 上达到 96.33% 的 SOTA 成绩,超越开源和商业方案。该版本显著提升了表格识别、稀有字符、印章检测和图表理解能力,尤其适合金融合同、法律文件等复杂文档。与 1.5 版本完全架构兼容,零迁移成本即可使用。高精度解析能力直接提升了 RAG 系统的输入质量,降低了文档智能的门槛。AI产品OCR文档解析PaddleOCR-VLRAG法律金融推荐理由:文档解析是 RAG 和 LLM 应用的关键瓶颈,PaddleOCR-VL 1.6 在复杂场景(表格、印章、稀有字符)上大幅提升,做法律、金融文档处理的团队可以直接替换升级,零迁移成本值得一试。原文
20:57berryxia@berryxia腾讯HY实验室联合四家机构发布Chronicles-OCR基准测试,专门评估AI对3000年中国古文字的识别能力。测试包含2800张专家标注图像,覆盖甲骨文、金文、篆书等七大类古文字。结果显示28个前沿多模态模型全部失败,最强模型在甲骨文上仅14%准确率,GPT-5和Gemini 2.5 Pro接近0。更反直觉的是,开启推理模式反而降低表现,模型实际依赖载体(如龟壳、青铜器)而非文字本身进行分类。该测试揭示了AI在文化遗产领域的巨大挑战。AI模型OCR古文字识别多模态模型基准测试文化遗产推荐理由:这个基准测试戳破了多模态模型在古文字识别上的泡沫——它们根本没在认字,只是认载体。做文化遗产数字化或OCR研究的团队,看完会重新思考模型能力的边界。原文
10:56Qdrant@qdrant_engineQdrant 宣布将在 MistralAI 举办的 AI NOW 巴黎峰会上发表演讲,主题为“使用 MistralAI OCR 和 Qdrant 对杂乱文档进行语义搜索”。演讲将探讨如何结合语义搜索与 OCR 技术,将噪声多、结构混乱的非结构化文档转化为可搜索、可用的知识。该演讲由 Qdrant 开发者倡导者 Chadha Sridi 主讲,旨在展示 MistralAI 与 Qdrant 的联合解决方案。峰会将于巴黎举行,Qdrant 期待与 AI 社区交流。AI产品语义搜索OCRQdrantMistralAI非结构化文档推荐理由:做文档搜索或知识管理的团队值得关注——MistralAI OCR + Qdrant 的组合能直接解决非结构化数据难检索的痛点,建议有类似需求的开发者点开了解具体方案。原文
09:12LlamaIndex@llama_indexLlamaIndex 推出了 ParseBench,这是首个专门为 AI 智能体设计的文档 OCR 基准测试。现有的基准测试无法满足 AI 智能体在实际生产环境中的需求,ParseBench 填补了这一空白。该基准测试旨在评估文档解析器在真实场景下的表现,帮助开发者判断其是否适合投入生产。LlamaIndex 将通过线上研讨会详细解读 ParseBench 的设计原理和应用方法。AI产品文档解析OCR基准测试AI智能体LlamaIndex推荐理由:做文档解析或 AI 智能体开发的团队,终于有了一个贴近真实生产环境的评估标准,建议关注 ParseBench 的细节,看看你的解析器能否通过考验。原文
21:51berryxia@berryxia精选PaddleOCR 3.5 正式发布,支持 Transformers 作为推理后端,PP-OCRv5 和 PaddleOCR-VL 1.5 模型可直接在 Hugging Face 生态中运行。此前将 PaddleOCR 集成到 RAG 或 Document AI 项目需要额外搭建服务栈,现在流程大幅简化。Hugging Face 团队参与了合作,使得 OCR 工具与主流 Transformer 生态无缝对接。输出结果更精准可靠,无需依赖 LLM 来补充。AI产品PaddleOCRHugging FaceOCRTransformers文档智能推荐理由:做文档智能或 RAG 的团队终于不用在 OCR 和 Transformer 之间搭桥了,PaddleOCR 3.5 直接跑在 Hugging Face 上,省掉一堆服务栈,建议做 Document AI 的开发者点开试试。原文
16:57Hunyuan@TXhunyuan腾讯混元团队开源了 Chronicles-OCR,这是一个专门评估视觉大语言模型(VLLM)对古代汉字视觉感知能力的基准。该数据集跨越 3000 年文字演变,涵盖从甲骨文到草书的 7 种历史字体,包含 2800 张均衡分布的图像。基准评估模型在字符定位、细粒度识别、古代文本解析和字体分类四个核心任务上的表现。该工作揭示了视觉分布偏移如何影响模型对古代文字的感知能力,为相关研究提供了重要参考。论文视觉大语言模型OCR古代汉字基准测试开源推荐理由:做 OCR 或古籍数字化的团队终于有了一个针对古代汉字的专业评估基准,可以直接用来测试自家 VLLM 的视觉感知能力,值得关注。原文
16:00berryxia@berryxia腾讯团队开源了Chronicles-OCR,一个专门用于评估VLLM对古汉字感知能力的基准数据集。该数据集覆盖从甲骨文到草书的3000年演变,包含7种历史字体、2800张来自真实载体的平衡图像。测试任务包括字符定位、细粒度识别、古文字解析和字体分类。结果显示,随着视觉分布的时间漂移,大多数模型的感知能力显著下降。这一工作将AI视觉能力与文化传承紧密结合,为古代历史研究提供了新的工具。论文古文字识别OCR视觉语言模型文化遗产腾讯推荐理由:古文字识别是AI视觉的硬核边界,做OCR或文化遗产数字化的团队可以直接用这个基准测试自家模型,看看它们穿越回3000年前还能不能认出字。原文
12:31LlamaIndex@llama_indexLlamaIndex 推出了 ParseBench,这是首个专门为 AI 智能体设计的文档 OCR 基准测试。现有的基准测试无法满足 AI 智能体在文档解析方面的实际需求,ParseBench 填补了这一空白。该基准测试将帮助开发者评估文档解析器在生产环境中的真实表现。LlamaIndex 将通过线上研讨会详细解读其背后的原理和方法。AI产品文档解析OCR基准测试AI智能体LlamaIndex推荐理由:做文档解析或 AI 智能体应用的开发者终于有了针对性的评估工具,ParseBench 能帮你判断解析器是否真的 ready for production,建议关注后续研讨会细节。原文
00:30Hugging Face: Blog(博客/媒体)精选PaddleOCR 3.5 版本正式发布,新增对 Transformers 后端的支持,允许用户使用 Hugging Face 生态中的预训练模型进行 OCR 和文档解析任务。这一更新打破了原有框架对 PaddlePaddle 模型的依赖,提升了模型选择的灵活性和生态兼容性。新版本还优化了文档解析性能,支持更多语言和复杂版面分析。对于需要集成 OCR 能力的开发者来说,这是一个重要的升级,可以直接利用社区丰富的 Transformers 模型资源。AI产品OCR文档解析PaddleOCRTransformers开源/仓库推荐理由:PaddleOCR 拥抱 Transformers 生态,做文档解析和 OCR 的团队可以更灵活地选模型,不用被框架绑死,值得升级试试。原文
14:04Jerry Liu@jerryjliu0精选LlamaIndex CEO Jerry Liu指出,金融领域的AI智能体可分为两类:一是重复性操作工作(如发票处理、贷款发起、KYC),二是开放式研究与报告生成(如尽职调查、股票研究)。他在纽约的研讨会上强调,构建高质量文档上下文层需要严格的OCR层、评估检查和良好的人机交互审核UI/UX,因为数字的微小错误可能导致灾难性后果。他分享了演讲幻灯片和Logan的仓库,后者展示了构建带完整人机交互审核的金融文档解析流水线。LlamaIndex的核心使命是为金融等领域的AI智能体提取最高质量的文档上下文。AI产品金融AI文档处理OCR人机交互审核LlamaIndex推荐理由:金融从业者做AI智能体时,文档上下文质量直接决定成败——LlamaIndex的实践方案(OCR+评估+人机审核)值得参考,尤其是处理发票、KYC等场景的团队建议点开。原文
13:27arXiv: DeepSeek@Ahmed Heakl, Youssef Mohamed, Abdullah Sohail, Rania Elbadry, Ahmed Nassar, Peter W. J. Staar, Fahad Shahbaz Khan, Imran Razzak, Salman Khan精选DocAtlas 是一个多语言文档理解框架,覆盖 82 种语言和 9 项评估任务,解决了低资源语言因训练数据稀缺和标注偏差导致的性能瓶颈。它通过差分渲染原生 DOCX 文档和基于 LaTeX 的合成生成(针对从右到左书写系统)来构建高保真 OCR 数据集,无需学习模型即可生成统一 DocTag 格式的结构化标注。评估 16 个 SOTA 模型发现低资源语言仍存在显著差距。使用直接偏好优化(DPO)以渲染生成的真实数据作为正信号,实现了稳定的多语言适配,在域内和域外准确率分别提升 1.9% 和 1.8%,而监督微调导致域外性能下降高达 21%。最佳变体 DocAtlas-DeepSeek 比最强基线提升 1.7%。论文多语言文档理解OCR低资源语言DPO/直接偏好优化DocAtlas推荐理由:做多语言文档理解或 OCR 的团队终于有了一个覆盖 82 种语言的高质量基准和训练框架,低资源语言场景可以直接用 DPO 方法提升效果,建议点开看具体实现。原文
18:18berryxia@berryxiaInterfaze 提出了一种全新混合架构,将任务专用的 DNN/CNN 编码器与全能 Transformer 融合,在 OCR、视觉、STT、结构化输出等确定性任务上准确率超越 Gemini-3-Flash、Claude-Sonnet-4.6、GPT-5.4-Mini 和 Grok-4.3。该架构通过 <task> 标签实现部分模型激活,大幅提升速度和性价比。在 9 个硬核基准上全面领先,尤其在高频场景中速度和成本优势明显。作者认为,未来真实生产力任务不需要越来越大的通用模型,而是需要这种“专为确定性任务而生”的混合架构。AI模型Interfaze混合架构OCR视觉模型确定性任务推荐理由:做 OCR、视觉或音频处理的团队,终于有了一个又准又快又便宜的替代方案——Interfaze 用混合架构把通用大模型的痛点解决了,建议直接看博客跑一下自己的用例。原文