视觉-语言-动作(VLA)模型正快速从概念验证走向系统化应用,近期研究聚焦于提升模型在复杂真实场景下的鲁棒性、安全性和泛化能力。
实验室自动化与多机器人协作:LabVLA 将 VLA 引入科学实验场景,通过自然语言指令驱动机械臂完成滴定、移液等操作,展示了 VLA 在精密任务中的潜力(LabVLA:让AI在科学实验室里动手做实验)。而 CHORUS 则提出了去中心化多机器人协作框架,仅用单一 VLA 策略即可协调不同机器人完成复杂任务,降低了多智能体系统的部署成本(CHORUS:单一VLA策略实现去中心化多机器人协作)。
模型能力增强:研究人员从多个角度补足 VLA 短板。FineVLA 通过细粒度指令对齐,让模型能够精确遵循用户对动作幅度、速度等维度的要求(FineVLA:细粒度指令对齐实现可操控的视觉-语言-动作策略)。LIBERO-Occ 利用视角想象能力,在场景部分遮挡时仍能稳健地执行操作(LIBERO-Occ:通过视角想象提升VLA模型在场景遮挡下的鲁棒性)。GEAR-VLA 引入几何感知动作表征,使机器人更易在未见过物体和布局上泛化(GEAR-VLA:几何感知动作表征实现机器人操作泛化)。另外,InDex 通过意图条件微调弥合了 VLA 与灵巧手之间的形态差异,为精细操控开辟道路(InDex:通过意图条件微调弥合VLA模型到灵巧手的形态鸿沟)。
安全性与部署效率:Attention-Guided Safety Filter 为 VLA 内建了安全过滤机制,无需额外训练即可阻止危险动作(Attention-Guided Safety Filter:VLA模型内建安全机制,无需额外训练)。Ω-QVLA 则通过统一的 W4A4 量化方案,将模型内存压缩 71% 且保持性能不变,推动了 VLA 在边缘设备上的部署(Ω-QVLA:统一W4A4量化VLA模型,压缩71%内存且性能不降)。此外,关于如何有效利用人类反馈来引导 VLA 行为的研究也在推进(学习如何引导VLA:一种无害的语言反馈策略)。
当前焦点:VLA 模型的关注点正从实验室演示转向真实世界的可靠性、安全性和可操作性。遮挡、泛化、形态差异、部署成本等工程问题受到更多关注,而内建安全机制和高效量化是走向实际应用的关键一环。未来值得观察 VLA 模型在工业、科研和家庭场景中的落地速度,以及如何进一步平衡模型能力与硬件约束。