腾讯混元开源 Chronicles-OCR:评估 VLLM 对古代汉字的视觉感知基准

🎉 🎉 🎉 We're open-sourcing Chronicles-OCR, a visual perception benchmark evaluating VLLMs on ancie...

精选理由

做 OCR 或古籍数字化的团队终于有了一个针对古代汉字的专业评估基准,可以直接用来测试自家 VLLM 的视觉感知能力,值得关注。

AI 摘要

腾讯混元团队开源了 Chronicles-OCR,这是一个专门评估视觉大语言模型(VLLM)对古代汉字视觉感知能力的基准。该数据集跨越 3000 年文字演变,涵盖从甲骨文到草书的 7 种历史字体,包含 2800 张均衡分布的图像。基准评估模型在字符定位、细粒度识别、古代文本解析和字体分类四个核心任务上的表现。该工作揭示了视觉分布偏移如何影响模型对古代文字的感知能力,为相关研究提供了重要参考。

AI 翻译 · 中文

腾讯混元团队开源了 Chronicles-OCR,这是一个专门评估视觉大语言模型(VLLM)对古代汉字视觉感知能力的基准。该数据集跨越 3000 年文字演变,涵盖从甲骨文到草书的 7 种历史字体,包含 2800 张均衡分布的图像。基准评估模型在字符定位、细粒度识别、古代文本解析和字体分类四个核心任务上的表现。该工作揭示了视觉分布偏移如何影响模型对古代文字的感知能力,为相关研究提供了重要参考。

Hunyuan🎉 🎉 🎉 We're open-sourcing Chronicles-OCR, a visual perception benchmark evaluating VLLMs on ancient Chinese characters. The dataset spans 3,000 years of evolution. It covers 7 historical scripts from Oracle Bone t