精选理由
做机器人安全控制的团队终于有了一个轻量级方案——VLA模型自带的注意力头就能当安全过滤器用,无需额外训练或重模型,动态场景效果还更好,值得点开看实现细节。
VLA模型在机器人操作任务中表现出色,但无法保证避免与任务无关物体的碰撞。现有安全过滤器通过查询VLM来识别障碍物,但速度太慢,无法在控制循环中实时运行。研究发现,VLA模型中的少数注意力头能可靠定位策略意图接近的目标物体。利用这些注意力头,可以在无需训练的情况下,每步获取活动目标,将场景其余部分视为障碍物,并输入控制障碍函数过滤器。结合轻量级实时目标跟踪器,该方法能有效避免非静态障碍物的碰撞,在动态场景中比使用模拟器特权状态的Oracle方法平均提升43%。
AI 翻译 · 中文
VLA模型在机器人操作任务中表现出色,但无法保证避免与任务无关物体的碰撞。现有安全过滤器通过查询VLM来识别障碍物,但速度太慢,无法在控制循环中实时运行。研究发现,VLA模型中的少数注意力头能可靠定位策略意图接近的目标物体。利用这些注意力头,可以在无需训练的情况下,每步获取活动目标,将场景其余部分视为障碍物,并输入控制障碍函数过滤器。结合轻量级实时目标跟踪器,该方法能有效避免非静态障碍物的碰撞,在动态场景中比使用模拟器特权状态的Oracle方法平均提升43%。
Vision-Language-Action (VLA) models have demonstrated impressive end-to-end performance across a variety of robotic manipulation tasks. However, these policies offer no guarantees against collisions with task-irrelevant …