精选理由
这篇论文用4B小模型在具身推理上打败了7B的Mimo-Embodied,平均提高12%,靠的是把每一步推理都牢牢钉在视觉证据上,挺有意思。
RoboPIN提出PinCoT(固定思维链)方法,将每个推理步骤绑定到视觉锚点,每个锚点包含实体名称、唯一标识、视图索引和空间定位。基于4B参数的小模型,在14个基准测试(涵盖空间推理、多视图推理和指向任务)中,平均超越7B开源模型Mimo-Embodied达12%。该方法通过三阶段后训练注入具身知识和过程监督,显著提升定位精度和跨步骤实体一致性。
AI 翻译 · 中文
RoboPIN提出PinCoT(固定思维链)方法,将每个推理步骤绑定到视觉锚点,每个锚点包含实体名称、唯一标识、视图索引和空间定位。基于4B参数的小模型,在14个基准测试(涵盖空间推理、多视图推理和指向任务)中,平均超越7B开源模型Mimo-Embodied达12%。该方法通过三阶段后训练注入具身知识和过程监督,显著提升定位精度和跨步骤实体一致性。
Embodied reasoning requires models to perceive task-relevant objects and spaces in physical environments and maintain consistent visual grounding throughout multi-step reasoning. However, current vision-language models r…