微调VLA模型层数远少于预期:50%层可移除,训练时间减半

Finetuning Vision-Language-Action Models Requires Fewer Layers Than You Think

精选理由

这篇论文发现VLA模型很多层是冗余的,用他们的方法可以白嫖50%层数,微调快一半,推理快30%,效果不降。搞机器人微调的可以试试。

AI 摘要

VLA模型(如pi_0、GR00T-N1.5)参数规模达数十亿,微调计算成本高。本文通过中心核对齐(Centered Kernel Alignment)识别冗余层,无需训练即可移除最多50%的层。在LIBERO、RoboCasa、SimplerEnv三个模拟基准和10个真实操作任务、4种机器人本体上验证,压缩后模型性能与完整模型相当。微调时间减少40-50%,实时推理速度提升达30%。结果表明VLA模型实际所需层数远少于现有架构。

AI 翻译 · 中文

VLA模型(如pi_0、GR00T-N1.5)参数规模达数十亿,微调计算成本高。本文通过中心核对齐(Centered Kernel Alignment)识别冗余层,无需训练即可移除最多50%的层。在LIBERO、RoboCasa、SimplerEnv三个模拟基准和10个真实操作任务、4种机器人本体上验证,压缩后模型性能与完整模型相当。微调时间减少40-50%,实时推理速度提升达30%。结果表明VLA模型实际所需层数远少于现有架构。

arXiv cs.AIVision-Language-Action (VLA) models pre-trained on massive video-robot datasets have revolutionized robotic manipulation, yet their multi-billion parameter architectures impose prohibitive computational burdens during do