论文精选

SAGE:通过几何逻辑一致性提升VLM空间推理能力

Self-Evolving Spatial Reasoning in Vision Language Models via Geometric Logic Consistency

精选理由

空间推理是VLM的硬伤,SAGE用自进化训练解决了这个痛点,做多模态模型训练或空间理解应用的团队可以直接参考方法。

AI 摘要

视觉语言模型(VLM)在空间推理上仍存在脆弱性,即使能正确回答原始输入,也可能在变换后失败。为此,研究者提出SAGE(Spatial Alignment via Geometric Evolution),一种自进化框架,通过几何和语言对偶操作强制VLM保持逻辑一致性。SAGE将一致性作为GRPO训练的辅助奖励,并动态调整操作池以聚焦最具信息量的信号。该方法模型无关、数据高效,可作为轻量后训练阶段应用于任何VLM。实验表明,SAGE在视频和空间推理基准上持续优于强基线,并提升了对未见数据的泛化能力。

AI 翻译 · 中文

视觉语言模型(VLM)在空间推理上仍存在脆弱性,即使能正确回答原始输入,也可能在变换后失败。为此,研究者提出SAGE(Spatial Alignment via Geometric Evolution),一种自进化框架,通过几何和语言对偶操作强制VLM保持逻辑一致性。SAGE将一致性作为GRPO训练的辅助奖励,并动态调整操作池以聚焦最具信息量的信号。该方法模型无关、数据高效,可作为轻量后训练阶段应用于任何VLM。实验表明,SAGE在视频和空间推理基准上持续优于强基线,并提升了对未见数据的泛化能力。

arXiv cs.AIVision-Language Models (VLMs) have made striking progress, yet their spatial reasoning remains fragile: models that answer an original input correctly can still fail under paired transformations with predictable answer m