SAGE：通过几何逻辑一致性提升VLM空间推理能力

精选理由

空间推理是VLM的硬伤，SAGE用自进化训练解决了这个痛点，做多模态模型训练或空间理解应用的团队可以直接参考方法。

AI 摘要

视觉语言模型（VLM）在空间推理上仍存在脆弱性，即使能正确回答原始输入，也可能在变换后失败。为此，研究者提出SAGE（Spatial Alignment via Geometric Evolution），一种自进化框架，通过几何和语言对偶操作强制VLM保持逻辑一致性。SAGE将一致性作为GRPO训练的辅助奖励，并动态调整操作池以聚焦最具信息量的信号。该方法模型无关、数据高效，可作为轻量后训练阶段应用于任何VLM。实验表明，SAGE在视频和空间推理基准上持续优于强基线，并提升了对未见数据的泛化能力。

AI 翻译 · 中文

arXiv cs.AIVision-Language Models (VLMs) have made striking progress, yet their spatial reasoning remains fragile: models that answer an original input correctly can still fail under paired transformations with predictable answer m…

阅读原文