10:57
arXiv cs.LG@Nikita Kachaev, Andrey Moskalenko, Matvey Skripkin, Nikita Kurlaev, Daria Pugacheva, Albina Burlova, Mikhail Kolosov, Denis Shepelev, Andrey Kuznetsov, Elena Tutubalina, Aleksandr I. Panov, Alexey K. Kovalev, Vlad Shakhuro 论文提出 Act2Answer 协议,通过让智能体在桌面场景中执行物体放置动作来选择答案,从而在动作层面评估 7 个 VLA 模型和 9 个 VLM 基线在常识与知识任务上的表现。研究发现,VLA 在简单概念上表现扎实,但在丰富语义类别上相比源 VLM 出现更大差距。实验还表明,VQA 联合训练有助于提升知识保留,而答案相关信息在 VLA 中层达到峰值,上层则衰减。
推荐理由:想知道微调后的机器人模型到底还记不记得常识?这篇论文用动作答题的方式测了7个VLA,发现简单概念还行,复杂知识掉得厉害。