ReCoVLA：VLM引导奖励编译，提升VLA策略故障恢复能力

精选理由

做机器人操作策略的团队终于有了一个不重新训练就能处理故障的方案——ReCoVLA 用 VLM 做奖励选择器，零样本迁移到真实环境。做 VLA 策略部署的开发者可以直接参考这个框架。

AI 摘要

ReCoVLA 提出一种故障条件残差恢复框架，保持预训练 VLA 策略冻结，利用外部 VLM 推断故障模式和恢复阶段，并编译结构化奖励。该方法将高层故障理解与低层控制解耦，支持不同 VLA 策略。在短程、长程和接触密集操作任务中，ReCoVLA 平均成功率从基线 36.7% 提升至 66.7%，物理零样本迁移实验达 61.7%。

AI 翻译 · 中文

arXiv cs.AIVision-language-action (VLA) policies provide strong priors for language-conditioned manipulation, but remain brittle in off-nominal states requiring targeted recovery. We propose ReCoVLA -- a failure-conditioned residua…

阅读原文