AITP
精选全部 AI 动态AI 日报Agent 接入关于更新日志信源提报反馈
登录 / 注册
AITOP
全部 AI 动态
AI 相关资讯全量信息流
全部博客资讯推文论文
全部模型产品行业论文技巧
标签:3D/4D×
6月16日
20:46
AITOP6月16日 20:46
600亿美元买下Cursor,xAI终于拿到了编程工具,但真正值得跟踪的或许不是AI600亿美元买下Cursor,xAI终于拿到了编程工具,但真正值得跟踪的或许不是AI
6月12日
12:57
AITOP6月12日 12:57
Claude代码里藏了个20260612,18个月后的AI记忆革命已经开始倒计时
10:51
10:51arXiv cs.AI@Seokju Cho, Ryo Hachiuma, Abhishek Badki, Hang Su, Byung-Kwan Lee, Chan Hee Song, Sifei Liu, Subhashree Radhakrishnan, Seungryong Kim, Yu-Chiang Frank Wang, Min-Hung Chen
SpatialClaw 提出了一种无需训练的空间推理框架,通过将代码作为动作接口,让 VLM 智能体能够逐步执行并观察中间结果,从而灵活组合感知和几何操作。现有空间智能体要么单次执行代码(无法中途调整),要么依赖结构化工具调用(灵活性不足),限制了复杂 3D/4D 推理。SpatialClaw 维护一个状态化 Python 内核,预加载输入帧和感知原语,智能体每步写一个可执行单元,基于之前输出调整策略。在 20 个空间推理基准上,SpatialClaw 平均准确率 59.9%,比最新空间智能体高 11.2 个百分点,且跨 6 个 VLM 骨干网络表现一致。
论文空间推理VLM/视觉语言模型代码接口智能体3D/4D

推荐理由:做 3D 视觉或机器人空间推理的团队,终于有了一个无需微调就能显著提升 VLM 空间理解能力的框架——SpatialClaw 用代码接口解决了灵活性和中间反馈的痛点,值得在现有模型上直接试试。
原文
6月11日
15:28
AITOP6月11日 15:28
1107 vs 303:谷歌悄悄开源了一个“拆打字机”的模型,把大模型速度翻了4倍
15:23
AITOP6月11日 15:23
DiffusionGemma颠覆文本生成?自回归模型的“统治”要结束了
15:07
AITOP6月11日 15:07
每秒1107个token,Google开源的扩散模型为什么能改变本地推理格局?
精选全部日报登录