Imaginative Perception Tokens 提升多模态模型空间推理

Imaginative Perception Tokens Enhance Spatial Reasoning in Multimodal Language Models

精选理由

空间推理是多模态模型的短板,IPT 提供了一种不依赖文本思维链的监督方式,做视觉推理或空间理解的团队可以直接参考论文方法。

AI 摘要

多模态语言模型在空间推理任务中常因无法直接观察关键信息而表现不佳。研究者提出 Imaginative Perception Tokens (IPT),一种中间感知表征,让模型能推断未观察到的空间结构,如从不可见视角看物体、追踪遮挡路径等。在 Perspective Taking、Path Tracing 和 Multiview Counting 三个任务上,IPT 监督显著提升空间推理准确率,在 MVC 上提升 3.4%,且优于文本思维链训练。研究发现文本思维链在空间计算中可能因模态不匹配而降低性能,而 IPT 提供了更有效的监督信号。该方法无需在推理时生成图像,即可产生可解释的中间表征,提升泛化能力。

AI 翻译 · 中文

多模态语言模型在空间推理任务中常因无法直接观察关键信息而表现不佳。研究者提出 Imaginative Perception Tokens (IPT),一种中间感知表征,让模型能推断未观察到的空间结构,如从不可见视角看物体、追踪遮挡路径等。在 Perspective Taking、Path Tracing 和 Multiview Counting 三个任务上,IPT 监督显著提升空间推理准确率,在 MVC 上提升 3.4%,且优于文本思维链训练。研究发现文本思维链在空间计算中可能因模态不匹配而降低性能,而 IPT 提供了更有效的监督信号。该方法无需在推理时生成图像,即可产生可解释的中间表征,提升泛化能力。

arXiv cs.AIVision language models (VLMs) excel at many tasks but still struggle with spatial reasoning when critical information is not directly observable. Many such problems require imaginative perception: inferring what would be