11:05arXiv cs.AI@Basel Shbita, Pengyuan Li, Anna Lisa Gentile精选WikiVQABench 是一个人工策划的知识驱动视觉问答(VQA)基准,通过系统结合 Wikipedia 图像、文章标题和 Wikidata 结构化知识构建。它使用大语言模型生成候选多项选择题,再由人工审核确保事实正确性和视觉-文本一致性,要求每个问题必须依赖外部知识才能正确回答。评估了 15 个视觉语言模型(256M-90B 参数),准确率范围从 24.7% 到 75.6%,表明该基准能有效区分模型在知识密集型推理上的能力。数据集和代码已公开。论文视觉问答知识驱动基准测试WikipediaWikidata推荐理由:做 VQA 或视觉语言模型评测的团队终于有了一个真正需要外部知识的基准,不再是纯视觉感知题——想测试模型知识推理能力的可以直接用这个数据集。原文