论文精选

DocAtlas:覆盖82种语言的多语言文档理解框架

DocAtlas: Multilingual Document Understanding Across 80+ Languages

精选理由

做多语言文档理解或 OCR 的团队终于有了一个覆盖 82 种语言的高质量基准和训练框架,低资源语言场景可以直接用 DPO 方法提升效果,建议点开看具体实现。

AI 摘要

DocAtlas 是一个多语言文档理解框架,覆盖 82 种语言和 9 项评估任务,解决了低资源语言因训练数据稀缺和标注偏差导致的性能瓶颈。它通过差分渲染原生 DOCX 文档和基于 LaTeX 的合成生成(针对从右到左书写系统)来构建高保真 OCR 数据集,无需学习模型即可生成统一 DocTag 格式的结构化标注。评估 16 个 SOTA 模型发现低资源语言仍存在显著差距。使用直接偏好优化(DPO)以渲染生成的真实数据作为正信号,实现了稳定的多语言适配,在域内和域外准确率分别提升 1.9% 和 1.8%,而监督微调导致域外性能下降高达 21%。最佳变体 DocAtlas-DeepSeek 比最强基线提升 1.7%。

AI 翻译 · 中文

DocAtlas 是一个多语言文档理解框架,覆盖 82 种语言和 9 项评估任务,解决了低资源语言因训练数据稀缺和标注偏差导致的性能瓶颈。它通过差分渲染原生 DOCX 文档和基于 LaTeX 的合成生成(针对从右到左书写系统)来构建高保真 OCR 数据集,无需学习模型即可生成统一 DocTag 格式的结构化标注。评估 16 个 SOTA 模型发现低资源语言仍存在显著差距。使用直接偏好优化(DPO)以渲染生成的真实数据作为正信号,实现了稳定的多语言适配,在域内和域外准确率分别提升 1.9% 和 1.8%,而监督微调导致域外性能下降高达 21%。最佳变体 DocAtlas-DeepSeek 比最强基线提升 1.7%。

arXiv: DeepSeekMultilingual document understanding remains limited for low-resource languages due to scarce training data and model-based annotation pipelines that perpetuate existing biases. We introduce DocAtlas, a framework that con