精选理由
机器人操控研究者终于有了一个能高效解耦世界建模与动作执行的方案——AHA-WAM在速度和成功率上双赢,做具身智能的团队可以直接参考其异步架构设计。
AHA-WAM是一种基于双扩散Transformer(DiT)架构的异步世界-动作模型,用于机器人操控。它通过将世界预测和动作执行解耦到不同时间分辨率,解决了传统模型在近端帧建模上的冗余问题。视频DiT作为低频世界规划器,维护滚动键值记忆并编码长期场景演化;动作DiT作为高频执行器,通过层间联合注意力查询世界上下文。实验在RoboTwin和真实世界任务中达到92.80%和78.3%的成功率,闭环控制频率达24.17 Hz,速度提升4.59倍,且无需机器人数据预训练。
AI 翻译 · 中文
AHA-WAM是一种基于双扩散Transformer(DiT)架构的异步世界-动作模型,用于机器人操控。它通过将世界预测和动作执行解耦到不同时间分辨率,解决了传统模型在近端帧建模上的冗余问题。视频DiT作为低频世界规划器,维护滚动键值记忆并编码长期场景演化;动作DiT作为高频执行器,通过层间联合注意力查询世界上下文。实验在RoboTwin和真实世界任务中达到92.80%和78.3%的成功率,闭环控制频率达24.17 Hz,速度提升4.59倍,且无需机器人数据预训练。
World-action models have emerged as a promising paradigm for robot manipulation, jointly modeling visual scene dynamics and actions to inject physical priors into policy learning. However, existing world-action models co…