全部 AI 动态 · AI 热点

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

5月19日

14:27

14:27

arXiv cs.AI@Feng Chen, Tianzhe Chu, Li Sun, Pei Zhou, Zhuxiu Xu, Shenghua Gao, Yuexiang Zhai, Yanchao Yang, Yi Ma

精选

DexHoldem 是一个基于 ShadowHand 灵巧手系统的真实世界基准测试，围绕德州扑克操作任务设计。它提供了 1470 个遥操作演示、14 种操作原语、标准化物理策略基准和智能体感知基准。实验显示，π0.5 在原始执行上完成率最高（61.2%），而 Opus 4.7 在感知准确率上领先（34.3%），但整体闭环部署中感知与策略错误会累积。该工作旨在评估灵巧操作、智能体感知和具身决策路由的协同能力。

论文灵巧操作具身智能基准测试德州扑克 ShadowHand

推荐理由：灵巧操作与决策感知的闭环评估是具身智能的硬骨头，做机器人操作或具身智能的团队值得看看这个新基准怎么暴露真实部署中的累积错误。