腾讯Chronicles-OCR基准测试：AI识别3000年中国古文字全军覆没

精选理由

这个基准测试戳破了多模态模型在古文字识别上的泡沫——它们根本没在认字，只是认载体。做文化遗产数字化或OCR研究的团队，看完会重新思考模型能力的边界。

AI 摘要

腾讯HY实验室联合四家机构发布Chronicles-OCR基准测试，专门评估AI对3000年中国古文字的识别能力。测试包含2800张专家标注图像，覆盖甲骨文、金文、篆书等七大类古文字。结果显示28个前沿多模态模型全部失败，最强模型在甲骨文上仅14%准确率，GPT-5和Gemini 2.5 Pro接近0。更反直觉的是，开启推理模式反而降低表现，模型实际依赖载体（如龟壳、青铜器）而非文字本身进行分类。该测试揭示了AI在文化遗产领域的巨大挑战。

AI 翻译 · 中文

berryxia鹅厂好的新基准测试，叫Chronicles-OCR。腾讯HY实验室和四家机构一起做的，专门测AI对3000年中国古文字的识别能力。 2800张专家标注的图像，覆盖甲骨文、金文、篆书、隶书、楷书、行书、草书七大类。结果28个前沿多模态模型全军覆没。最强的VLLM在甲骨文上也只拿到14%的准确率。端到端检测的H-mean最高才16.5%。 GPT-5和Gemini 2.5 Pro直接接近0。更反直觉的是，开启reasoning模式…

查看原推