全部 AI 动态 · AI 热点

arXiv cs.AI@Jisong Cai, Long Ling, Shiwei Chu, Zhongshan Liu, Jiayue Kang, Zhixuan Liang, Wenjie Xu, Yinan Mao, Weinan Zhang, Xiaokang Yang, Ru Ying, Ran Zheng, Yao Mu

AHA-WAM是一种基于双扩散Transformer（DiT）架构的异步世界-动作模型，用于机器人操控。它通过将世界预测和动作执行解耦到不同时间分辨率，解决了传统模型在近端帧建模上的冗余问题。视频DiT作为低频世界规划器，维护滚动键值记忆并编码长期场景演化；动作DiT作为高频执行器，通过层间联合注意力查询世界上下文。实验在RoboTwin和真实世界任务中达到92.80%和78.3%的成功率，闭环控制频率达24.17 Hz，速度提升4.59倍，且无需机器人数据预训练。

论文机器人操控世界模型扩散Transformer 异步架构 RoboTwin

推荐理由：机器人操控研究者终于有了一个能高效解耦世界建模与动作执行的方案——AHA-WAM在速度和成功率上双赢，做具身智能的团队可以直接参考其异步架构设计。

原文

6月2日

12:19

arXiv: OpenAI@Hikmet Simsir, Ozgur S. Oguz

精选

论文提出 Lagrangian Perturbation Diffusion Steering (LP-DS)，一种轻量级方法，通过优化冻结生成式策略的噪声空间扰动来提升性能，无需更新大型动作解码器。LP-DS 使用拉格朗日信任域目标，在提升下游价值的同时约束与潜在先验的偏差。在 RoboMimic、OpenAI Gym 和 Adroit 等基准测试中，LP-DS 在样本效率、成功率和回报上均有提升，回报比先前基线提高最多 25%。该方法还适用于流匹配骨干、大型视觉-语言-动作模型，并在真实 Franka 机器人上验证了有效性。

论文扩散模型强化学习机器人操控策略微调信任域优化

推荐理由：做机器人操控或强化学习的团队，终于有了一个不更新大模型也能微调扩散策略的轻量方案——LP-DS 在保持动作多样性的同时提升回报，建议试试看能否解决你的分布偏移问题。

原文

5月18日

11:50

arXiv cs.AI@Jin Shi, Brady Zhang, Yishun Lu

精选

VLA-AD提出一种蒸馏框架，利用视觉语言模型作为离线语义监督器，将大型VLA教师模型（如OpenVLA-7B）压缩为轻量级学生策略（158M参数），模型大小减少44倍，推理速度提升3.28倍（12.5 Hz on RTX 4090），性能仅下降0.27%。该方法不仅模仿底层动作，还引入任务阶段锚点和多帧操作方向描述等高层语义信号，仅在训练时使用，测试时学生策略独立运行。在LIBERO基准测试中，VLA-AD对π0.5-4B教师也有效，学生策略在部分任务上甚至超越教师。额外分析表明，语义引导使学生对教师动作噪声（如高频夹爪误操作）更鲁棒。

论文 VLA策略模型蒸馏机器人操控视觉语言模型推理加速

推荐理由：做机器人策略部署的团队终于有了实用的模型压缩方案——VLA-AD用VLM离线语义信号替代在线大模型，7B教师变158M学生，速度3倍提升且性能几乎无损，做实时闭环控制的开发者可以直接参考。

原文