腾讯Chronicles-OCR基准测试:AI识别3000年中国古文字全军覆没

鹅厂好的新基准测试,叫Chronicles-OCR。 腾讯HY实验室和四家机构一起做的,专门测AI…

精选理由

这个基准测试戳破了多模态模型在古文字识别上的泡沫——它们根本没在认字,只是认载体。做文化遗产数字化或OCR研究的团队,看完会重新思考模型能力的边界。

AI 摘要

腾讯HY实验室联合四家机构发布Chronicles-OCR基准测试,专门评估AI对3000年中国古文字的识别能力。测试包含2800张专家标注图像,覆盖甲骨文、金文、篆书等七大类古文字。结果显示28个前沿多模态模型全部失败,最强模型在甲骨文上仅14%准确率,GPT-5和Gemini 2.5 Pro接近0。更反直觉的是,开启推理模式反而降低表现,模型实际依赖载体(如龟壳、青铜器)而非文字本身进行分类。该测试揭示了AI在文化遗产领域的巨大挑战。

AI 翻译 · 中文

腾讯HY实验室联合四家机构发布Chronicles-OCR基准测试,专门评估AI对3000年中国古文字的识别能力。测试包含2800张专家标注图像,覆盖甲骨文、金文、篆书等七大类古文字。结果显示28个前沿多模态模型全部失败,最强模型在甲骨文上仅14%准确率,GPT-5和Gemini 2.5 Pro接近0。更反直觉的是,开启推理模式反而降低表现,模型实际依赖载体(如龟壳、青铜器)而非文字本身进行分类。该测试揭示了AI在文化遗产领域的巨大挑战。

berryxia鹅厂好的新基准测试,叫Chronicles-OCR。 腾讯HY实验室和四家机构一起做的,专门测AI对3000年中国古文字的识别能力。 2800张专家标注的图像,覆盖甲骨文、金文、篆书、隶书、楷书、行书、草书七大类。 结果28个前沿多模态模型全军覆没。 最强的VLLM在甲骨文上也只拿到14%的准确率。 端到端检测的H-mean最高才16.5%。 GPT-5和Gemini 2.5 Pro直接接近0。 更反直觉的是,开启reasoning模式