11:13arXiv cs.AI@Beichen Zhang, Yuhong Liu, Jinsong Li, Yuhang Zang, Jiaqi Wang, Dahua Lin精选多模态大语言模型在视觉推理上虽有进步,但纯文本思维链在处理需要精细关注或视角变换的问题时仍是瓶颈。现有“用图像思考”的方法要么受限于固定工具集,要么产生噪声中间图像。ETCHR 提出第三种方案:使用专用图像编辑模型,并将其与理解模型解耦。它通过两阶段训练(推理模仿和推理增强)解决语言侧和生成侧的差距,使编辑器能根据问题主动进行视觉变换。实验表明,ETCHR 在五个任务族上平均提升 Pass@1 约 5 个百分点,且可即插即用于多种开源和闭源多模态模型。论文多模态推理图像编辑视觉问答推理增强ETCHR推荐理由:做多模态推理或视觉问答的开发者,ETCHR 提供了一种无需微调即可提升模型准确率的思路,值得在现有工作流中试试。原文
11:05arXiv cs.AI@Basel Shbita, Pengyuan Li, Anna Lisa Gentile精选WikiVQABench 是一个人工策划的知识驱动视觉问答(VQA)基准,通过系统结合 Wikipedia 图像、文章标题和 Wikidata 结构化知识构建。它使用大语言模型生成候选多项选择题,再由人工审核确保事实正确性和视觉-文本一致性,要求每个问题必须依赖外部知识才能正确回答。评估了 15 个视觉语言模型(256M-90B 参数),准确率范围从 24.7% 到 75.6%,表明该基准能有效区分模型在知识密集型推理上的能力。数据集和代码已公开。论文视觉问答知识驱动基准测试WikipediaWikidata推荐理由:做 VQA 或视觉语言模型评测的团队终于有了一个真正需要外部知识的基准,不再是纯视觉感知题——想测试模型知识推理能力的可以直接用这个数据集。原文
19:10arXiv: OpenAI@Wenxuan Li, Pedro R. A. S. Bassi, Xinze Zhou, Jakob Wasserthal, Alan L. Yuille, Zongwei ZhouRadThinking是一个用于放射学纵向临床推理的视觉问答数据集,覆盖20362次CT扫描、9131名患者和2077名健康对照。数据集按推理深度分为三级:基础感知问题、单步规则推理问题和需要多步链式思维推理的组合问题。每个组合问题都附带基于临床报告标准的链式思维路径。该数据集首次将癌症筛查临床推理分层标注,支持训练和评估AI系统的推理能力而不仅仅是检测能力。论文医学影像推理模型视觉问答临床报告标准癌症筛查推荐理由:该数据集为训练AI进行符合临床指南的多步推理提供了标准化基准,对医学影像AI从感知向认知升级有重要价值。原文