如果你对多语言OCR或印地语文本识别感兴趣,这篇论文揭示了主流模型在天城体上的真实差距,尤其是GPT-5.5表现不如开源Qwen3-VL-8B。
该论文对10个OCR系统在天城体(印地语)上进行基准测试,包括EasyOCR、Qwen2.5-VL-3B、Qwen3-VL-8B、DeepSeek-OCR、Gemini 2.5 Flash、Claude Opus 4.7、GPT-5.5等。在清洁文本上所有系统chrF++在91-98之间,但在真实扫描图像中,9个系统性能大幅下降(EasyOCR从93.6跌至58.3)。Qwen3-VL-8B(75.2,可在单张24GB GPU运行)超过GPT-5.5(58.5)和olmOCR-7B(40.5),Gemini和Claude领先(86.3和82.2)。论文还提出基于ByT5的字节级后校正器可将廉价引擎chrF++提升1.2-1.5。
该论文对10个OCR系统在天城体(印地语)上进行基准测试,包括EasyOCR、Qwen2.5-VL-3B、Qwen3-VL-8B、DeepSeek-OCR、Gemini 2.5 Flash、Claude Opus 4.7、GPT-5.5等。在清洁文本上所有系统chrF++在91-98之间,但在真实扫描图像中,9个系统性能大幅下降(EasyOCR从93.6跌至58.3)。Qwen3-VL-8B(75.2,可在单张24GB GPU运行)超过GPT-5.5(58.5)和olmOCR-7B(40.5),Gemini和Claude领先(86.3和82.2)。论文还提出基于ByT5的字节级后校正器可将廉价引擎chrF++提升1.2-1.5。
OCR systems, ranging from classical engines to specialised OCR vision-language models (OCR-VLMs) and frontier multimodal LLMs, report strong results on English and Chinese document benchmarks, yet their behaviour on Indi…