精选理由
古文字识别是AI视觉的硬核边界,做OCR或文化遗产数字化的团队可以直接用这个基准测试自家模型,看看它们穿越回3000年前还能不能认出字。
腾讯团队开源了Chronicles-OCR,一个专门用于评估VLLM对古汉字感知能力的基准数据集。该数据集覆盖从甲骨文到草书的3000年演变,包含7种历史字体、2800张来自真实载体的平衡图像。测试任务包括字符定位、细粒度识别、古文字解析和字体分类。结果显示,随着视觉分布的时间漂移,大多数模型的感知能力显著下降。这一工作将AI视觉能力与文化传承紧密结合,为古代历史研究提供了新的工具。
AI 翻译 · 中文
腾讯团队开源了Chronicles-OCR,一个专门用于评估VLLM对古汉字感知能力的基准数据集。该数据集覆盖从甲骨文到草书的3000年演变,包含7种历史字体、2800张来自真实载体的平衡图像。测试任务包括字符定位、细粒度识别、古文字解析和字体分类。结果显示,随着视觉分布的时间漂移,大多数模型的感知能力显著下降。这一工作将AI视觉能力与文化传承紧密结合,为古代历史研究提供了新的工具。
xdm,这个研究对于古代历史研究的价值很大啊! 他们刚刚开源了Chronicles-OCR,一个专门测VLLM对古汉字感知能力的基准。 数据集横跨3000年演变,涵盖7种历史字体,从甲骨文一直到草书,2800张平衡图像,来自不同材质的真实载体。 测试分4个核心任务: 字符定位、细粒度识别、古文字解析、字体分类。 结果很扎心:视觉分布随时间漂移后,大部分模型感知能力直接崩盘。 以前大家卷的是现代图文理解,现在Tence…