OCR-VLMs 在天城体上的表现：压力测试基准与后校正研究

精选理由

如果你对多语言OCR或印地语文本识别感兴趣，这篇论文揭示了主流模型在天城体上的真实差距，尤其是GPT-5.5表现不如开源Qwen3-VL-8B。

AI 摘要

该论文对10个OCR系统在天城体（印地语）上进行基准测试，包括EasyOCR、Qwen2.5-VL-3B、Qwen3-VL-8B、DeepSeek-OCR、Gemini 2.5 Flash、Claude Opus 4.7、GPT-5.5等。在清洁文本上所有系统chrF++在91-98之间，但在真实扫描图像中，9个系统性能大幅下降（EasyOCR从93.6跌至58.3）。Qwen3-VL-8B（75.2，可在单张24GB GPU运行）超过GPT-5.5（58.5）和olmOCR-7B（40.5），Gemini和Claude领先（86.3和82.2）。论文还提出基于ByT5的字节级后校正器可将廉价引擎chrF++提升1.2-1.5。

AI 翻译 · 中文

arXiv: DeepSeekOCR systems, ranging from classical engines to specialised OCR vision-language models (OCR-VLMs) and frontier multimodal LLMs, report strong results on English and Chinese document benchmarks, yet their behaviour on Indi…

阅读原文