精选 AI 资讯 · AI 热点

arXiv: DeepSeek@Ahmed Heakl, Youssef Mohamed, Abdullah Sohail, Rania Elbadry, Ahmed Nassar, Peter W. J. Staar, Fahad Shahbaz Khan, Imran Razzak, Salman Khan

精选

DocAtlas 是一个多语言文档理解框架，覆盖 82 种语言和 9 项评估任务，解决了低资源语言因训练数据稀缺和标注偏差导致的性能瓶颈。它通过差分渲染原生 DOCX 文档和基于 LaTeX 的合成生成（针对从右到左书写系统）来构建高保真 OCR 数据集，无需学习模型即可生成统一 DocTag 格式的结构化标注。评估 16 个 SOTA 模型发现低资源语言仍存在显著差距。使用直接偏好优化（DPO）以渲染生成的真实数据作为正信号，实现了稳定的多语言适配，在域内和域外准确率分别提升 1.9% 和 1.8%，而监督微调导致域外性能下降高达 21%。最佳变体 DocAtlas-DeepSeek 比最强基线提升 1.7%。

论文多语言文档理解 OCR 低资源语言 DPO/直接偏好优化 DocAtlas

推荐理由：做多语言文档理解或 OCR 的团队终于有了一个覆盖 82 种语言的高质量基准和训练框架，低资源语言场景可以直接用 DPO 方法提升效果，建议点开看具体实现。

原文