vla模型·general

VLA模型

别名
首次出现
2026-05-22
最近出现
2026-06-12
累计提及
12
§ 01综述

视觉-语言-动作(VLA)模型正快速从概念验证走向系统化应用,近期研究聚焦于提升模型在复杂真实场景下的鲁棒性、安全性和泛化能力。

实验室自动化与多机器人协作:LabVLA 将 VLA 引入科学实验场景,通过自然语言指令驱动机械臂完成滴定、移液等操作,展示了 VLA 在精密任务中的潜力(LabVLA:让AI在科学实验室里动手做实验)。而 CHORUS 则提出了去中心化多机器人协作框架,仅用单一 VLA 策略即可协调不同机器人完成复杂任务,降低了多智能体系统的部署成本(CHORUS:单一VLA策略实现去中心化多机器人协作)。

模型能力增强:研究人员从多个角度补足 VLA 短板。FineVLA 通过细粒度指令对齐,让模型能够精确遵循用户对动作幅度、速度等维度的要求(FineVLA:细粒度指令对齐实现可操控的视觉-语言-动作策略)。LIBERO-Occ 利用视角想象能力,在场景部分遮挡时仍能稳健地执行操作(LIBERO-Occ:通过视角想象提升VLA模型在场景遮挡下的鲁棒性)。GEAR-VLA 引入几何感知动作表征,使机器人更易在未见过物体和布局上泛化(GEAR-VLA:几何感知动作表征实现机器人操作泛化)。另外,InDex 通过意图条件微调弥合了 VLA 与灵巧手之间的形态差异,为精细操控开辟道路(InDex:通过意图条件微调弥合VLA模型到灵巧手的形态鸿沟)。

安全性与部署效率:Attention-Guided Safety Filter 为 VLA 内建了安全过滤机制,无需额外训练即可阻止危险动作(Attention-Guided Safety Filter:VLA模型内建安全机制,无需额外训练)。Ω-QVLA 则通过统一的 W4A4 量化方案,将模型内存压缩 71% 且保持性能不变,推动了 VLA 在边缘设备上的部署(Ω-QVLA:统一W4A4量化VLA模型,压缩71%内存且性能不降)。此外,关于如何有效利用人类反馈来引导 VLA 行为的研究也在推进(学习如何引导VLA:一种无害的语言反馈策略)。

当前焦点:VLA 模型的关注点正从实验室演示转向真实世界的可靠性、安全性和可操作性。遮挡、泛化、形态差异、部署成本等工程问题受到更多关注,而内建安全机制和高效量化是走向实际应用的关键一环。未来值得观察 VLA 模型在工业、科研和家庭场景中的落地速度,以及如何进一步平衡模型能力与硬件约束。

§ 02相关报道10 条在档
  1. 01
    LabVLA:让AI在科学实验室里动手做实验
    arXiv cs.AI
  2. 02
    CHORUS:单一VLA策略实现去中心化多机器人协作
    arXiv cs.AI
  3. 03
    学习如何引导VLA:一种无害的语言反馈策略
    arXiv cs.LG
  4. 04
    InDex:通过意图条件微调弥合VLA模型到灵巧手的形态鸿沟
    arXiv cs.AI
  5. 05
    LIBERO-Occ:通过视角想象提升VLA模型在场景遮挡下的鲁棒性
    arXiv cs.AI
  6. 06
    Attention-Guided Safety Filter:VLA模型内建安全机制,无需额外训练
    arXiv cs.LG
  7. 07
    GEAR-VLA:几何感知动作表征实现机器人操作泛化
    arXiv cs.AI
  8. 08
    英伟达推出 Alpamayo 2 Super 开源推理模型,加速 L4 自动驾驶研发
    IT之家
  9. 09
    Ω-QVLA:统一W4A4量化VLA模型,压缩71%内存且性能不降
    arXiv cs.LG
  10. 10
    FineVLA:细粒度指令对齐实现可操控的视觉-语言-动作策略
    arXiv cs.AI
§ 03邻近话题

本页综述由 AITOP 基于公开报道整理。原报道版权归各自来源所有。

/topic/VLA%E6%A8%A1%E5%9E%8B