论文 Act2Answer：评估 VLA 模型保留常识和世界知识的能力

精选理由

想知道微调后的机器人模型到底还记不记得常识？这篇论文用动作答题的方式测了7个VLA，发现简单概念还行，复杂知识掉得厉害。

AI 摘要

论文提出 Act2Answer 协议，通过让智能体在桌面场景中执行物体放置动作来选择答案，从而在动作层面评估 7 个 VLA 模型和 9 个 VLM 基线在常识与知识任务上的表现。研究发现，VLA 在简单概念上表现扎实，但在丰富语义类别上相比源 VLM 出现更大差距。实验还表明，VQA 联合训练有助于提升知识保留，而答案相关信息在 VLA 中层达到峰值，上层则衰减。

AI 翻译 · 中文

arXiv cs.LGEmbodied Vision-Language-Action (VLA) models are typically obtained by fine-tuning powerful pretrained VLMs on robotics data, yet it is unclear how much commonsense and factual knowledge they retain after adaptation. Fai…

阅读原文