10:55arXiv cs.AI@Haodi Hu, Chung-Ta Huang, Jing Liu, Ye Wang, Kei Suzuki, Matthew Brand, Toshiaki Koike-Akino精选ReCoVLA 提出一种故障条件残差恢复框架,保持预训练 VLA 策略冻结,利用外部 VLM 推断故障模式和恢复阶段,并编译结构化奖励。该方法将高层故障理解与低层控制解耦,支持不同 VLA 策略。在短程、长程和接触密集操作任务中,ReCoVLA 平均成功率从基线 36.7% 提升至 66.7%,物理零样本迁移实验达 61.7%。论文VLA策略故障恢复奖励编译零样本迁移机器人操作推荐理由:做机器人操作策略的团队终于有了一个不重新训练就能处理故障的方案——ReCoVLA 用 VLM 做奖励选择器,零样本迁移到真实环境。做 VLA 策略部署的开发者可以直接参考这个框架。原文
10:08arXiv cs.AI@Xinchen Jin, Aditya Chatterjee, Pranav Kumar, Rohan Paleja精选本文提出一种事件锚定的可解释性方法,将稀疏自编码器(SAE)的特征分析与机器人行为事件(如末端执行器关键帧)对齐,而非依赖文本上下文。该方法通过视觉、状态和时间线索聚类任务内的关键帧,将SAE特征与行为事件关联,并可选地通过VLM注释提供语义背景。实验在两种仿真架构和真实机器人上验证,事件锚定排序对OpenVLA产生最强因果效应,并迁移到π₀.5的连续动作块。研究同时指出SAE作为干预基础存在稀疏性和不完美性,干预效果因架构和干预位置而异,激进干预会暴露安全性和可解释性限制。代码已开源。论文稀疏自编码器VLA策略可解释性机器人行为事件推荐理由:做机器人VLA策略可解释性的研究者终于有了一个行为锚定的分析框架——事件锚定SAE直接关联动作与行为事件,比纯文本分析更贴近闭环控制,建议做机器人学习或可解释AI的团队点开看看。原文
11:50arXiv cs.AI@Jin Shi, Brady Zhang, Yishun Lu精选VLA-AD提出一种蒸馏框架,利用视觉语言模型作为离线语义监督器,将大型VLA教师模型(如OpenVLA-7B)压缩为轻量级学生策略(158M参数),模型大小减少44倍,推理速度提升3.28倍(12.5 Hz on RTX 4090),性能仅下降0.27%。该方法不仅模仿底层动作,还引入任务阶段锚点和多帧操作方向描述等高层语义信号,仅在训练时使用,测试时学生策略独立运行。在LIBERO基准测试中,VLA-AD对π0.5-4B教师也有效,学生策略在部分任务上甚至超越教师。额外分析表明,语义引导使学生对教师动作噪声(如高频夹爪误操作)更鲁棒。论文VLA策略模型蒸馏机器人操控视觉语言模型推理加速推荐理由:做机器人策略部署的团队终于有了实用的模型压缩方案——VLA-AD用VLM离线语义信号替代在线大模型,7B教师变158M学生,速度3倍提升且性能几乎无损,做实时闭环控制的开发者可以直接参考。原文
10:39arXiv cs.LG@Vaidehi Bagaria, Nikshep Grampurohit, Pulkit Verma精选该论文发现GRPO算法在VLA策略强化学习中,梯度计算占78%时间,而大部分计算浪费在策略已掌握的阶段。为此提出概率性分块掩码(PCM),通过成功-失败动作方差识别关键阶段,仅对少量分块进行梯度更新。PCM无需额外奖励模型,在LIBERO基准上保持相同成功率的同时,实现2.38倍加速、4.8倍梯度更新加速和60%峰值内存降低。论文强化学习VLA策略GRPO梯度加速机器人推荐理由:做VLA机器人强化学习的团队终于有了省算力的方案——PCM直接替换GRPO就能省60%内存、快2倍多,效果还不打折,建议做后训练优化的点开看看。原文