全部 AI 动态 · AI 热点

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

10:51

arXiv cs.AI@Seokju Cho, Ryo Hachiuma, Abhishek Badki, Hang Su, Byung-Kwan Lee, Chan Hee Song, Sifei Liu, Subhashree Radhakrishnan, Seungryong Kim, Yu-Chiang Frank Wang, Min-Hung Chen

SpatialClaw 提出了一种无需训练的空间推理框架，通过将代码作为动作接口，让 VLM 智能体能够逐步执行并观察中间结果，从而灵活组合感知和几何操作。现有空间智能体要么单次执行代码（无法中途调整），要么依赖结构化工具调用（灵活性不足），限制了复杂 3D/4D 推理。SpatialClaw 维护一个状态化 Python 内核，预加载输入帧和感知原语，智能体每步写一个可执行单元，基于之前输出调整策略。在 20 个空间推理基准上，SpatialClaw 平均准确率 59.9%，比最新空间智能体高 11.2 个百分点，且跨 6 个 VLM 骨干网络表现一致。

论文空间推理 VLM/视觉语言模型代码接口智能体 3D/4D

推荐理由：做 3D 视觉或机器人空间推理的团队，终于有了一个无需微调就能显著提升 VLM 空间理解能力的框架——SpatialClaw 用代码接口解决了灵活性和中间反馈的痛点，值得在现有模型上直接试试。

原文

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？