VLA模型

§ 01综述

视觉-语言-动作（VLA）模型正快速从概念验证走向系统化应用，近期研究聚焦于提升模型在复杂真实场景下的鲁棒性、安全性和泛化能力。

实验室自动化与多机器人协作：LabVLA 将 VLA 引入科学实验场景，通过自然语言指令驱动机械臂完成滴定、移液等操作，展示了 VLA 在精密任务中的潜力（LabVLA：让AI在科学实验室里动手做实验）。而 CHORUS 则提出了去中心化多机器人协作框架，仅用单一 VLA 策略即可协调不同机器人完成复杂任务，降低了多智能体系统的部署成本（CHORUS：单一VLA策略实现去中心化多机器人协作）。

模型能力增强：研究人员从多个角度补足 VLA 短板。FineVLA 通过细粒度指令对齐，让模型能够精确遵循用户对动作幅度、速度等维度的要求（FineVLA：细粒度指令对齐实现可操控的视觉-语言-动作策略）。LIBERO-Occ 利用视角想象能力，在场景部分遮挡时仍能稳健地执行操作（LIBERO-Occ：通过视角想象提升VLA模型在场景遮挡下的鲁棒性）。GEAR-VLA 引入几何感知动作表征，使机器人更易在未见过物体和布局上泛化（GEAR-VLA：几何感知动作表征实现机器人操作泛化）。另外，InDex 通过意图条件微调弥合了 VLA 与灵巧手之间的形态差异，为精细操控开辟道路（InDex：通过意图条件微调弥合VLA模型到灵巧手的形态鸿沟）。

安全性与部署效率：Attention-Guided Safety Filter 为 VLA 内建了安全过滤机制，无需额外训练即可阻止危险动作（Attention-Guided Safety Filter：VLA模型内建安全机制，无需额外训练）。Ω-QVLA 则通过统一的 W4A4 量化方案，将模型内存压缩 71% 且保持性能不变，推动了 VLA 在边缘设备上的部署（Ω-QVLA：统一W4A4量化VLA模型，压缩71%内存且性能不降）。此外，关于如何有效利用人类反馈来引导 VLA 行为的研究也在推进（学习如何引导VLA：一种无害的语言反馈策略）。

当前焦点：VLA 模型的关注点正从实验室演示转向真实世界的可靠性、安全性和可操作性。遮挡、泛化、形态差异、部署成本等工程问题受到更多关注，而内建安全机制和高效量化是走向实际应用的关键一环。未来值得观察 VLA 模型在工业、科研和家庭场景中的落地速度，以及如何进一步平衡模型能力与硬件约束。

§ 02相关报道10 条在档

§ 03邻近话题