精选理由
这篇论文发现VLA模型很多层是冗余的,用他们的方法可以白嫖50%层数,微调快一半,推理快30%,效果不降。搞机器人微调的可以试试。
VLA模型(如pi_0、GR00T-N1.5)参数规模达数十亿,微调计算成本高。本文通过中心核对齐(Centered Kernel Alignment)识别冗余层,无需训练即可移除最多50%的层。在LIBERO、RoboCasa、SimplerEnv三个模拟基准和10个真实操作任务、4种机器人本体上验证,压缩后模型性能与完整模型相当。微调时间减少40-50%,实时推理速度提升达30%。结果表明VLA模型实际所需层数远少于现有架构。
AI 翻译 · 中文
VLA模型(如pi_0、GR00T-N1.5)参数规模达数十亿,微调计算成本高。本文通过中心核对齐(Centered Kernel Alignment)识别冗余层,无需训练即可移除最多50%的层。在LIBERO、RoboCasa、SimplerEnv三个模拟基准和10个真实操作任务、4种机器人本体上验证,压缩后模型性能与完整模型相当。微调时间减少40-50%,实时推理速度提升达30%。结果表明VLA模型实际所需层数远少于现有架构。
Vision-Language-Action (VLA) models pre-trained on massive video-robot datasets have revolutionized robotic manipulation, yet their multi-billion parameter architectures impose prohibitive computational burdens during do…