精选理由
做 VQA 或视觉语言模型评测的团队终于有了一个真正需要外部知识的基准,不再是纯视觉感知题——想测试模型知识推理能力的可以直接用这个数据集。
WikiVQABench 是一个人工策划的知识驱动视觉问答(VQA)基准,通过系统结合 Wikipedia 图像、文章标题和 Wikidata 结构化知识构建。它使用大语言模型生成候选多项选择题,再由人工审核确保事实正确性和视觉-文本一致性,要求每个问题必须依赖外部知识才能正确回答。评估了 15 个视觉语言模型(256M-90B 参数),准确率范围从 24.7% 到 75.6%,表明该基准能有效区分模型在知识密集型推理上的能力。数据集和代码已公开。
AI 翻译 · 中文
WikiVQABench 是一个人工策划的知识驱动视觉问答(VQA)基准,通过系统结合 Wikipedia 图像、文章标题和 Wikidata 结构化知识构建。它使用大语言模型生成候选多项选择题,再由人工审核确保事实正确性和视觉-文本一致性,要求每个问题必须依赖外部知识才能正确回答。评估了 15 个视觉语言模型(256M-90B 参数),准确率范围从 24.7% 到 75.6%,表明该基准能有效区分模型在知识密集型推理上的能力。数据集和代码已公开。
Visual Question Answering (VQA) benchmarks have largely emphasized perception-based tasks that can be solved from visual content alone. In contrast, many real-world scenarios require external knowledge that is not direct…