全部 AI 动态 · AI 热点

6月17日

06:04

06:04

NVIDIA AI@NVIDIAAI

73°

NVIDIA Research 推出 SpatialClaw，一个无需训练的智能体，通过编写 Python 代码作为动作接口。它在持久内核中动态组合感知模块，检查中间结果并跨步骤调整策略。感知输出作为普通变量，可结合 NumPy、SciPy 等库复用。SpatialClaw 在 20 个基准上平均比先前方法高 11.2 分，在 6 种不同模型骨干上表现稳定。

AI模型 SpatialClaw NVIDIA 智能体多模态视觉推理

推荐理由：SpatialClaw 不用额外训练，靠写代码搞定复杂视觉任务，在 20 个基准上平均提升 11.2 分，还兼容多种模型。

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

6月1日

15:05

15:05

NVIDIA AI@NVIDIAAI

93°

NVIDIA 宣布推出 Cosmos 3，号称全球首个完全开放的全能模型，原生支持视觉推理、世界生成和动作生成。该模型提供 Super（32B）和 Nano（8B）两个版本，面向物理 AI 领域的研究与开发。Cosmos 3 的开源特性有望加速机器人、自动驾驶等物理世界交互系统的训练与部署，降低开发者门槛。

AI模型物理AI 开源/仓库视觉推理世界生成 NVIDIA

推荐理由：做机器人或自动驾驶的团队终于有了一个全开源的物理世界模型——Cosmos 3 原生支持视觉推理和动作生成，32B 和 8B 两个版本覆盖不同算力场景，值得直接上手试试。

5月30日

16:45

16:45

Stanford AI Lab@StanfordAILab

斯坦福人工智能实验室（SAIL）发布博客文章，介绍其最新研究VAGEN。VAGEN是一个强化学习框架，旨在训练视觉语言模型（VLM）智能体通过明确的视觉状态推理来构建内部世界模型。该框架使智能体能够更好地理解环境动态，从而在复杂任务中做出更合理的决策。这一进展对于提升AI在机器人、自动驾驶等需要环境理解的领域中的表现具有重要意义。

论文强化学习 VLM智能体世界模型视觉推理斯坦福SAIL

推荐理由：VAGEN解决了VLM智能体在复杂环境中缺乏内部世界模型的问题，做机器人或自动驾驶研究的团队值得关注，它可能让AI的决策更接近人类推理。