精选理由
灵巧操作与决策感知的闭环评估是具身智能的硬骨头,做机器人操作或具身智能的团队值得看看这个新基准怎么暴露真实部署中的累积错误。
DexHoldem 是一个基于 ShadowHand 灵巧手系统的真实世界基准测试,围绕德州扑克操作任务设计。它提供了 1470 个遥操作演示、14 种操作原语、标准化物理策略基准和智能体感知基准。实验显示,π0.5 在原始执行上完成率最高(61.2%),而 Opus 4.7 在感知准确率上领先(34.3%),但整体闭环部署中感知与策略错误会累积。该工作旨在评估灵巧操作、智能体感知和具身决策路由的协同能力。
AI 翻译 · 中文
DexHoldem 是一个基于 ShadowHand 灵巧手系统的真实世界基准测试,围绕德州扑克操作任务设计。它提供了 1470 个遥操作演示、14 种操作原语、标准化物理策略基准和智能体感知基准。实验显示,π0.5 在原始执行上完成率最高(61.2%),而 Opus 4.7 在感知准确率上领先(34.3%),但整体闭环部署中感知与策略错误会累积。该工作旨在评估灵巧操作、智能体感知和具身决策路由的协同能力。
Evaluating embodied systems on real dexterous hardware requires more than isolated primitive skills: an agent must perceive a changing tabletop scene, choose a context-appropriate action, execute it with a dexterous hand…