微调VLA模型层数远少于预期：50%层可移除，训练时间减半

精选理由

这篇论文发现VLA模型很多层是冗余的，用他们的方法可以白嫖50%层数，微调快一半，推理快30%，效果不降。搞机器人微调的可以试试。

AI 摘要

VLA模型（如pi_0、GR00T-N1.5）参数规模达数十亿，微调计算成本高。本文通过中心核对齐（Centered Kernel Alignment）识别冗余层，无需训练即可移除最多50%的层。在LIBERO、RoboCasa、SimplerEnv三个模拟基准和10个真实操作任务、4种机器人本体上验证，压缩后模型性能与完整模型相当。微调时间减少40-50%，实时推理速度提升达30%。结果表明VLA模型实际所需层数远少于现有架构。

AI 翻译 · 中文

arXiv cs.AIVision-Language-Action (VLA) models pre-trained on massive video-robot datasets have revolutionized robotic manipulation, yet their multi-billion parameter architectures impose prohibitive computational burdens during do…

阅读原文