TREAD：用VLM重标注机器人数据，提升指令跟随鲁棒性

精选理由

做机器人数据增强和指令跟随的团队，TREAD用VLM低成本提升数据集质量，直接增强策略泛化，值得在LIBERO等基准上试试。

AI 摘要

机器人学习中的大规模策略在操作任务上表现优异，但指令跟随能力不足，主要原因是现有数据集缺乏语言和动作序列多样性。TREAD提出一种可扩展框架，利用大型视觉语言模型（VLM）对现有机器人数据集进行重标注，无需额外数据采集。该方法通过三个步骤：从原始指令生成语义子任务、基于子任务分割演示视频、生成包含物体属性的多样化指令，将长演示分解为语言-动作对。实验表明，在LIBERO基准上，使用TREAD增强数据训练的策略在未见任务和目标上表现更好，提升了规划泛化和语言条件策略泛化能力。

AI 翻译 · 中文

arXiv cs.LGThe recent trend in scaling models for robot learning has resulted in impressive policies that can perform various manipulation tasks and generalize to novel scenarios. However, these policies continue to struggle with f…

阅读原文