Qwen-RobotManip技术报告：对齐解锁机器人操作基础模型的规模

精选理由

阿里Qwen团队这个机器人模型用开源数据和人类演示就能学，跨平台零样本操作，还在多个测试里碾压了π0.5，做机器人开发的别错过。

AI 摘要

Qwen-RobotManip是基于Qwen-VL构建的视觉-语言-动作基础模型。它引入统一对齐框架，覆盖表示、运动和操作行为三个维度，使多源训练数据协调一致。通过人工到机器人的合成流水线，利用15种平台的示教数据，构建了约38,100小时的预训练语料。模型在RoboCasa365、LIBERO-Plus、EBench等OOD基准上显著优于先前最佳模型π0.5，并在AgileX ALOHA、Franka、UR、ARX等真实机器人平台上验证。

AI 翻译 · 中文

arXiv cs.LGFoundation models in language and multimodality achieve strong generalization by aligning heterogeneous data under a unified formulation and training at scale. In this report, we investigate whether this scaling recipe c…

Hugging Face: Blog06-17 10:18原文

阅读原文