VLK: 通过合成交互学习人形机器人操作

VLK: Learning Humanoid Loco-Manipulation from Synthetic Interactions in Reconstructed Scenes

精选理由

想让人形机器人自己学会拿东西?VLK用48,000条合成轨迹模拟真实场景,直接在Unitree G1上跑通了导航和运输,省掉人工标注的苦力。

AI 摘要

VLK提出利用3D高斯溅射(3D Gaussian Splatting)重建度量级室内场景,并合成导航与物体交互轨迹,生成48,000个配对视觉-语言-运动学(VLK)数据,无需人工干预。训练出的VLK策略能够预测短时全身运动轨迹,并通过全身跟踪器将预测转化为实际动作。在物理Unitree G1人形机器人上,该方法成功完成导航和单物体运输任务,实现了从模拟到真实的感知驱动操作。

AI 翻译 · 中文

VLK提出利用3D高斯溅射(3D Gaussian Splatting)重建度量级室内场景,并合成导航与物体交互轨迹,生成48,000个配对视觉-语言-运动学(VLK)数据,无需人工干预。训练出的VLK策略能够预测短时全身运动轨迹,并通过全身跟踪器将预测转化为实际动作。在物理Unitree G1人形机器人上,该方法成功完成导航和单物体运输任务,实现了从模拟到真实的感知驱动操作。

arXiv cs.AIPerception-based humanoid loco-manipulation requires connecting egocentric observations and task instructions to whole-body motion. Learning this mapping requires synchronized egocentric images, language commands, and ro