TempoVLA：实现速度可控的视觉-语言-动作策略

精选理由

做机器人操作或 VLA 研究的团队终于有了一个能按需调速的方案——TempoVLA 让单一模型同时覆盖快速移动和慢速精确操作，值得关注其动态速度控制的实际效果。

AI 摘要

现有视觉-语言-动作模型（VLA）只能以训练数据中的固定速度执行任务，无法在低风险阶段快速移动、高风险阶段慢速精确操作。TempoVLA 提出了一种速度可控的解决方案，通过可变速度轨迹增强（VSTA）和模型侧条件机制，让单一 VLA 模型能够根据显式速度条件调整执行速度。实验表明，TempoVLA 在仿真和真实任务中实现了双向灵活速度控制，且 VSTA 通过更好的数据利用提升了默认速度下的性能。与大型多模态模型结合后，TempoVLA 还能实现动态速度控制，在低风险阶段加速、高风险阶段减速。这项工作解决了机器人操作中速度自适应这一关键痛点。

AI 翻译 · 中文

arXiv cs.AIRobot manipulation alternates between low-risk transit phases that call for fast execution and high-risk contact stages that demand slow, precise motion. Yet existing Vision-Language-Action models (VLAs) only inherit a s…

阅读原文