FineVLA：细粒度指令对齐实现可操控的视觉-语言-动作策略

精选理由

做机器人策略学习和 VLA 模型的研究者终于有了可用的细粒度数据框架——FineVLA 不仅开源了 47K 条验证轨迹和基准，还证明了细粒度指令能显著提升操控精度，做双臂操作或仿真迁移的团队可以直接用。

AI 摘要

现有机器人数据集通常只提供粗粒度的目标级语言描述，缺乏执行细节（如活动臂、接近方向、接触区域），限制了策略的可操控性。FineVLA 提出了一个开放框架，包括数据构建工具、细粒度数据集 FineVLA-Data（47,159 条轨迹）、基准测试、专用 VLM 标注器和可操控策略。实验表明，细粒度监督不仅不牺牲目标级成功率，还能提升 1.4-8.1 个百分点，且与粗粒度指令互补，最佳混合比例（FG:Raw=1:2 至 1:1）在仿真和真实场景中均取得最高性能。细粒度监督在姿态、颜色和接近方向等关键因素上带来最大真实世界增益，建议用细粒度语言补充目标级指令。

AI 翻译 · 中文

arXiv cs.AIVision-Language-Action (VLA) models are increasingly expected to not only complete robot tasks, but also follow human instructions about how those tasks should be executed. However, existing robot datasets usually pair t…

阅读原文