10:51
arXiv cs.AI@Seokju Cho, Ryo Hachiuma, Abhishek Badki, Hang Su, Byung-Kwan Lee, Chan Hee Song, Sifei Liu, Subhashree Radhakrishnan, Seungryong Kim, Yu-Chiang Frank Wang, Min-Hung Chen SpatialClaw 提出了一种无需训练的空间推理框架,通过将代码作为动作接口,让 VLM 智能体能够逐步执行并观察中间结果,从而灵活组合感知和几何操作。现有空间智能体要么单次执行代码(无法中途调整),要么依赖结构化工具调用(灵活性不足),限制了复杂 3D/4D 推理。SpatialClaw 维护一个状态化 Python 内核,预加载输入帧和感知原语,智能体每步写一个可执行单元,基于之前输出调整策略。在 20 个空间推理基准上,SpatialClaw 平均准确率 59.9%,比最新空间智能体高 11.2 个百分点,且跨 6 个 VLM 骨干网络表现一致。
推荐理由:做 3D 视觉或机器人空间推理的团队,终于有了一个无需微调就能显著提升 VLM 空间理解能力的框架——SpatialClaw 用代码接口解决了灵活性和中间反馈的痛点,值得在现有模型上直接试试。