DocAtlas：覆盖82种语言的多语言文档理解框架

精选理由

做多语言文档理解或 OCR 的团队终于有了一个覆盖 82 种语言的高质量基准和训练框架，低资源语言场景可以直接用 DPO 方法提升效果，建议点开看具体实现。

AI 摘要

DocAtlas 是一个多语言文档理解框架，覆盖 82 种语言和 9 项评估任务，解决了低资源语言因训练数据稀缺和标注偏差导致的性能瓶颈。它通过差分渲染原生 DOCX 文档和基于 LaTeX 的合成生成（针对从右到左书写系统）来构建高保真 OCR 数据集，无需学习模型即可生成统一 DocTag 格式的结构化标注。评估 16 个 SOTA 模型发现低资源语言仍存在显著差距。使用直接偏好优化（DPO）以渲染生成的真实数据作为正信号，实现了稳定的多语言适配，在域内和域外准确率分别提升 1.9% 和 1.8%，而监督微调导致域外性能下降高达 21%。最佳变体 DocAtlas-DeepSeek 比最强基线提升 1.7%。

AI 翻译 · 中文

arXiv: DeepSeekMultilingual document understanding remains limited for low-resource languages due to scarce training data and model-based annotation pipelines that perpetuate existing biases. We introduce DocAtlas, a framework that con…

阅读原文