10:34
arXiv cs.AI@Xintong Hu, Xuhong Huang, Jinyu Zhang, Yutong Yao, Yuchong Sun, Qiuyue Wang, Mingsheng Li, Sicheng Xie, Yitao Liu, Junhao Chen, Yixuan Chen, Yingming Zheng, Shuai Bai, Tao Yu 现有机器人数据集通常只提供粗粒度的目标级语言描述,缺乏执行细节(如活动臂、接近方向、接触区域),限制了策略的可操控性。FineVLA 提出了一个开放框架,包括数据构建工具、细粒度数据集 FineVLA-Data(47,159 条轨迹)、基准测试、专用 VLM 标注器和可操控策略。实验表明,细粒度监督不仅不牺牲目标级成功率,还能提升 1.4-8.1 个百分点,且与粗粒度指令互补,最佳混合比例(FG:Raw=1:2 至 1:1)在仿真和真实场景中均取得最高性能。细粒度监督在姿态、颜色和接近方向等关键因素上带来最大真实世界增益,建议用细粒度语言补充目标级指令。
推荐理由:做机器人策略学习和 VLA 模型的研究者终于有了可用的细粒度数据框架——FineVLA 不仅开源了 47K 条验证轨迹和基准,还证明了细粒度指令能显著提升操控精度,做双臂操作或仿真迁移的团队可以直接用。