RoboPIN: 通过固定思维链提升具身推理能力

精选理由

这篇论文用4B小模型在具身推理上打败了7B的Mimo-Embodied，平均提高12%，靠的是把每一步推理都牢牢钉在视觉证据上，挺有意思。

AI 摘要

RoboPIN提出PinCoT（固定思维链）方法，将每个推理步骤绑定到视觉锚点，每个锚点包含实体名称、唯一标识、视图索引和空间定位。基于4B参数的小模型，在14个基准测试（涵盖空间推理、多视图推理和指向任务）中，平均超越7B开源模型Mimo-Embodied达12%。该方法通过三阶段后训练注入具身知识和过程监督，显著提升定位精度和跨步骤实体一致性。

AI 翻译 · 中文

arXiv cs.AIEmbodied reasoning requires models to perceive task-relevant objects and spaces in physical environments and maintain consistent visual grounding throughout multi-step reasoning. However, current vision-language models r…

阅读原文