6月25日
10:59
6月19日
10:12
10:12arXiv cs.AI@Gia-Binh Nguyen, Trong-Bao Ho, Thien-Loc Ha, Khoa Vo, Philip Lund Møller, Quang T. Nguyen, Long Dinh, Tuan Dam, Vu Duong, Tung M. Luu, Trung Le, Tran Nguyen Le, Minh Vu, An Thai Le, Ngan Le, Daniel Sonntag, James Zou, Jan Peters, Duy M. H. Nguyen, Ngo Anh Vien
VLA模型(如pi_0、GR00T-N1.5)参数规模达数十亿,微调计算成本高。本文通过中心核对齐(Centered Kernel Alignment)识别冗余层,无需训练即可移除最多50%的层。在LIBERO、RoboCasa、SimplerEnv三个模拟基准和10个真实操作任务、4种机器人本体上验证,压缩后模型性能与完整模型相当。微调时间减少40-50%,实时推理速度提升达30%。结果表明VLA模型实际所需层数远少于现有架构。
推荐理由:这篇论文发现VLA模型很多层是冗余的,用他们的方法可以白嫖50%层数,微调快一半,推理快30%,效果不降。搞机器人微调的可以试试。
6月18日
10:57
10:57arXiv cs.LG@Nikita Kachaev, Andrey Moskalenko, Matvey Skripkin, Nikita Kurlaev, Daria Pugacheva, Albina Burlova, Mikhail Kolosov, Denis Shepelev, Andrey Kuznetsov, Elena Tutubalina, Aleksandr I. Panov, Alexey K. Kovalev, Vlad Shakhuro
论文提出 Act2Answer 协议,通过让智能体在桌面场景中执行物体放置动作来选择答案,从而在动作层面评估 7 个 VLA 模型和 9 个 VLM 基线在常识与知识任务上的表现。研究发现,VLA 在简单概念上表现扎实,但在丰富语义类别上相比源 VLM 出现更大差距。实验还表明,VQA 联合训练有助于提升知识保留,而答案相关信息在 VLA 中层达到峰值,上层则衰减。
推荐理由:想知道微调后的机器人模型到底还记不记得常识?这篇论文用动作答题的方式测了7个VLA,发现简单概念还行,复杂知识掉得厉害。
5月21日