11:01arXiv cs.AI@Luciano Duarte, Olga Ovcharenko, Sebastian Schelter精选数据库社区缺乏结合表格、文本和图像的大规模真实数据集。研究者从大都会艺术博物馆、芝加哥艺术博物馆和荷兰国立博物馆收集了651045条博物馆记录,构建了多模态文化遗产数据集ArtiFact。该数据集包含130209条注入七类错误(如材料时代错乱、时间偏移)的记录,用于跨模态错误检测任务。实验表明,当前系统难以检测领域特定的细微错误,且在语义查询处理中,对文化邻近性、模糊对象类型和历史术语的查询表现不佳。ArtiFact为多模态数据管理研究提供了具有挑战性的基准。论文多模态数据集/基准文化遗产错误检测语义查询推荐理由:做多模态数据管理、文化遗产数字化或数据质量研究的团队,这个真实世界的大规模基准能帮你测试模型在细粒度错误检测和语义查询上的真实水平,值得跑一跑。原文
20:57berryxia@berryxia腾讯HY实验室联合四家机构发布Chronicles-OCR基准测试,专门评估AI对3000年中国古文字的识别能力。测试包含2800张专家标注图像,覆盖甲骨文、金文、篆书等七大类古文字。结果显示28个前沿多模态模型全部失败,最强模型在甲骨文上仅14%准确率,GPT-5和Gemini 2.5 Pro接近0。更反直觉的是,开启推理模式反而降低表现,模型实际依赖载体(如龟壳、青铜器)而非文字本身进行分类。该测试揭示了AI在文化遗产领域的巨大挑战。AI模型OCR古文字识别多模态模型基准测试文化遗产推荐理由:这个基准测试戳破了多模态模型在古文字识别上的泡沫——它们根本没在认字,只是认载体。做文化遗产数字化或OCR研究的团队,看完会重新思考模型能力的边界。原文
16:00berryxia@berryxia腾讯团队开源了Chronicles-OCR,一个专门用于评估VLLM对古汉字感知能力的基准数据集。该数据集覆盖从甲骨文到草书的3000年演变,包含7种历史字体、2800张来自真实载体的平衡图像。测试任务包括字符定位、细粒度识别、古文字解析和字体分类。结果显示,随着视觉分布的时间漂移,大多数模型的感知能力显著下降。这一工作将AI视觉能力与文化传承紧密结合,为古代历史研究提供了新的工具。论文古文字识别OCR视觉语言模型文化遗产腾讯推荐理由:古文字识别是AI视觉的硬核边界,做OCR或文化遗产数字化的团队可以直接用这个基准测试自家模型,看看它们穿越回3000年前还能不能认出字。原文