AITP
精选全部 AI 动态AI 日报Agent 接入关于更新日志信源提报反馈
登录 / 注册
AITOP
精选
AI 自动挑选的高价值内容
全部模型产品行业论文技巧
标签:机器人操控×
5月18日
11:50
arXiv cs.AI@Jin Shi, Brady Zhang, Yishun Lu
精选58
VLA-AD提出一种蒸馏框架,利用视觉语言模型作为离线语义监督器,将大型VLA教师模型(如OpenVLA-7B)压缩为轻量级学生策略(158M参数),模型大小减少44倍,推理速度提升3.28倍(12.5 Hz on RTX 4090),性能仅下降0.27%。该方法不仅模仿底层动作,还引入任务阶段锚点和多帧操作方向描述等高层语义信号,仅在训练时使用,测试时学生策略独立运行。在LIBERO基准测试中,VLA-AD对π0.5-4B教师也有效,学生策略在部分任务上甚至超越教师。额外分析表明,语义引导使学生对教师动作噪声(如高频夹爪误操作)更鲁棒。
论文VLA策略模型蒸馏机器人操控视觉语言模型推理加速

推荐理由:做机器人策略部署的团队终于有了实用的模型压缩方案——VLA-AD用VLM离线语义信号替代在线大模型,7B教师变158M学生,速度3倍提升且性能几乎无损,做实时闭环控制的开发者可以直接参考。