学习如何引导VLA：一种无害的语言反馈策略

精选理由

机器人开发者终于有了一个无需重新训练就能安全引导VLA模型的方法——通过语言反馈策略提升任务成功率，同时避免有害行为。做机器人控制或人机交互的团队可以直接在现有模型上尝试，值得关注。

AI 摘要

该研究提出一种框架，通过交互式搜索语言序列来提升视觉-语言-动作（VLA）模型的闭环任务性能，并蒸馏为测试时的语言反馈策略（LFP）。同时学习一个改进头，预测何时语言引导能提升性能，并通过保形化处理防止有害干预。该方法适用于任意冻结的预训练VLA模型，无需访问原始训练数据或微调。在模拟和硬件实验中，该策略分别将基础VLA性能提升24.7%和65.0%，且在视觉和语义扰动下具有强无害性保证。

AI 翻译 · 中文

arXiv cs.LGVision-Language-Action (VLA) models provide a natural language interface to robot control, but the mapping from language to behavior is often brittle and unintuitive: semantically similar instructions can induce drastica…

阅读原文