6月19日
6月18日
6月17日
10:17
10:17arXiv cs.LG@Haoqi Yuan, Zhixuan Liang, Anzhe Chen, Ye Wang, Haoyang Li, Pei Lin, Yiyang Huang, Zixing Lei, Tong Zhang, Jiazhao Zhang, Jie Zhang, Jingyang Fan, Gengze Zhou, Qihang Peng, Chenxu Lv, Xiaoyue Chen, An Yang, Fei Huang, Junyang Lin, Dayiheng Liu, Jingren Zhou, Chenfei Wu, Xiong-Hui Chen
83°
Qwen-RobotManip是基于Qwen-VL构建的视觉-语言-动作基础模型。它引入统一对齐框架,覆盖表示、运动和操作行为三个维度,使多源训练数据协调一致。通过人工到机器人的合成流水线,利用15种平台的示教数据,构建了约38,100小时的预训练语料。模型在RoboCasa365、LIBERO-Plus、EBench等OOD基准上显著优于先前最佳模型π0.5,并在AgileX ALOHA、Franka、UR、ARX等真实机器人平台上验证。

推荐理由:阿里Qwen团队这个机器人模型用开源数据和人类演示就能学,跨平台零样本操作,还在多个测试里碾压了π0.5,做机器人开发的别错过。
6月16日
11:43
11:43arXiv cs.AI@Jialei Chen, Kai Wang, Kang Chen, Shuaihang Chen, Feng Gao, Wenhao Tang, Zhiyuan Li, Weilin Liu, Zhuyu Yao, Boxun Li, Yuanbo Xu, Chao Yu
LaWAM通过潜在视觉子目标替代重建未来视频,在LIBERO基准上达到98.6%的成功率,在RoboTwin上达到91.22%,并在真实世界操作任务中取得竞争性表现。该模型每次动作块预测仅需187毫秒,延迟比像素空间世界行动模型低24倍。LaWAM的核心是潜在动作条件潜在世界模型(LaWM),利用预训练视觉基础模型的潜在空间预测未来观测特征。
推荐理由:机器人策略新框架LaWAM,不用生成视频就能预测场景变化,又快又准,成功率98.6%还低延迟,推荐做机器人控制的看看。
6月15日