WikiVQABench：从 Wikipedia 和 Wikidata 构建的知识驱动 VQA 基准

精选理由

做 VQA 或视觉语言模型评测的团队终于有了一个真正需要外部知识的基准，不再是纯视觉感知题——想测试模型知识推理能力的可以直接用这个数据集。

AI 摘要

WikiVQABench 是一个人工策划的知识驱动视觉问答（VQA）基准，通过系统结合 Wikipedia 图像、文章标题和 Wikidata 结构化知识构建。它使用大语言模型生成候选多项选择题，再由人工审核确保事实正确性和视觉-文本一致性，要求每个问题必须依赖外部知识才能正确回答。评估了 15 个视觉语言模型（256M-90B 参数），准确率范围从 24.7% 到 75.6%，表明该基准能有效区分模型在知识密集型推理上的能力。数据集和代码已公开。

AI 翻译 · 中文

arXiv cs.AIVisual Question Answering (VQA) benchmarks have largely emphasized perception-based tasks that can be solved from visual content alone. In contrast, many real-world scenarios require external knowledge that is not direct…

阅读原文