论文精选

Closed-Loop Trace Distillation:让VLM正确读取机器人探索操作轨迹

When Video Misreads: Closed-Loop Distillation of Reading Heuristics for Exploratory Manipulation Trace QA

精选理由

机器人操作中失败尝试常被忽略,但本文证明它们才是关键线索——做具身智能或机器人规划的团队,可以用蒸馏出的单行提示直接提升VLM的轨迹理解能力,值得在仿真和真实场景中试试。

AI 摘要

机器人探索操作中,一次看似失败的尝试(如拉锁住的抽屉)往往揭示了完成任务的关键前提条件。本文形式化定义了探索操作轨迹问答(EMT-QA)任务:给定同步视频和本体感知数据,预测最小成功动作链。现有VLM和具身多模态大模型无法可靠地从原始数据中恢复该链条。作者提出闭环轨迹蒸馏(Closed-Loop Trace Distillation)方法,通过每个任务的编码代理检查标注轨迹,蒸馏出一行自然语言提示(DRH)。在三个模拟器和两个真实机器人任务上,DRH将链条预测准确率提升0.38-0.47,且DRH本身可作为一次性程序化分类器的唯一规范。

AI 翻译 · 中文

机器人探索操作中,一次看似失败的尝试(如拉锁住的抽屉)往往揭示了完成任务的关键前提条件。本文形式化定义了探索操作轨迹问答(EMT-QA)任务:给定同步视频和本体感知数据,预测最小成功动作链。现有VLM和具身多模态大模型无法可靠地从原始数据中恢复该链条。作者提出闭环轨迹蒸馏(Closed-Loop Trace Distillation)方法,通过每个任务的编码代理检查标注轨迹,蒸馏出一行自然语言提示(DRH)。在三个模拟器和两个真实机器人任务上,DRH将链条预测准确率提升0.38-0.47,且DRH本身可作为一次性程序化分类器的唯一规范。

arXiv cs.AIExploratory manipulation often turns an apparent failed attempt into the key evidence for what to do next. For example, a robot pulls a locked cabinet drawer, fails, and only succeeds after opening the lock. The failed p