精选理由
做 3D 视觉或机器人空间推理的团队,终于有了一个无需微调就能显著提升 VLM 空间理解能力的框架——SpatialClaw 用代码接口解决了灵活性和中间反馈的痛点,值得在现有模型上直接试试。
SpatialClaw 提出了一种无需训练的空间推理框架,通过将代码作为动作接口,让 VLM 智能体能够逐步执行并观察中间结果,从而灵活组合感知和几何操作。现有空间智能体要么单次执行代码(无法中途调整),要么依赖结构化工具调用(灵活性不足),限制了复杂 3D/4D 推理。SpatialClaw 维护一个状态化 Python 内核,预加载输入帧和感知原语,智能体每步写一个可执行单元,基于之前输出调整策略。在 20 个空间推理基准上,SpatialClaw 平均准确率 59.9%,比最新空间智能体高 11.2 个百分点,且跨 6 个 VLM 骨干网络表现一致。
AI 翻译 · 中文
SpatialClaw 提出了一种无需训练的空间推理框架,通过将代码作为动作接口,让 VLM 智能体能够逐步执行并观察中间结果,从而灵活组合感知和几何操作。现有空间智能体要么单次执行代码(无法中途调整),要么依赖结构化工具调用(灵活性不足),限制了复杂 3D/4D 推理。SpatialClaw 维护一个状态化 Python 内核,预加载输入帧和感知原语,智能体每步写一个可执行单元,基于之前输出调整策略。在 20 个空间推理基准上,SpatialClaw 平均准确率 59.9%,比最新空间智能体高 11.2 个百分点,且跨 6 个 VLM 骨干网络表现一致。
Spatial reasoning, the ability to determine where objects are, how they relate, and how they move in 3D, remains a fundamental challenge for vision-language models (VLMs). Tool-augmented agents attempt to address this by…