精选理由
SpatialClaw 不用额外训练,靠写代码搞定复杂视觉任务,在 20 个基准上平均提升 11.2 分,还兼容多种模型。
NVIDIA Research 推出 SpatialClaw,一个无需训练的智能体,通过编写 Python 代码作为动作接口。它在持久内核中动态组合感知模块,检查中间结果并跨步骤调整策略。感知输出作为普通变量,可结合 NumPy、SciPy 等库复用。SpatialClaw 在 20 个基准上平均比先前方法高 11.2 分,在 6 种不同模型骨干上表现稳定。
AI 翻译 · 中文
NVIDIA Research 推出 SpatialClaw,一个无需训练的智能体,通过编写 Python 代码作为动作接口。它在持久内核中动态组合感知模块,检查中间结果并跨步骤调整策略。感知输出作为普通变量,可结合 NumPy、SciPy 等库复用。SpatialClaw 在 20 个基准上平均比先前方法高 11.2 分,在 6 种不同模型骨干上表现稳定。
Code is the right action interface for spatial reasoning agents. New from NVIDIA Research: SpatialClaw, a training-free agent that uses code as its action interface for complex visual tasks. Instead of calling a fixed se…