精选理由
做 OCR 或古籍数字化的团队终于有了一个针对古代汉字的专业评估基准,可以直接用来测试自家 VLLM 的视觉感知能力,值得关注。
腾讯混元团队开源了 Chronicles-OCR,这是一个专门评估视觉大语言模型(VLLM)对古代汉字视觉感知能力的基准。该数据集跨越 3000 年文字演变,涵盖从甲骨文到草书的 7 种历史字体,包含 2800 张均衡分布的图像。基准评估模型在字符定位、细粒度识别、古代文本解析和字体分类四个核心任务上的表现。该工作揭示了视觉分布偏移如何影响模型对古代文字的感知能力,为相关研究提供了重要参考。
AI 翻译 · 中文
腾讯混元团队开源了 Chronicles-OCR,这是一个专门评估视觉大语言模型(VLLM)对古代汉字视觉感知能力的基准。该数据集跨越 3000 年文字演变,涵盖从甲骨文到草书的 7 种历史字体,包含 2800 张均衡分布的图像。基准评估模型在字符定位、细粒度识别、古代文本解析和字体分类四个核心任务上的表现。该工作揭示了视觉分布偏移如何影响模型对古代文字的感知能力,为相关研究提供了重要参考。
🎉 🎉 🎉 We're open-sourcing Chronicles-OCR, a visual perception benchmark evaluating VLLMs on ancient Chinese characters. The dataset spans 3,000 years of evolution. It covers 7 historical scripts from Oracle Bone t…