VLESA：视觉语言具身安全代理，实时监控人类活动

精选理由

做具身 AI 安全或人机协作的团队，VLESA 提供了一个可落地的实时安全监控方案，能根据上下文判断危险动作，建议直接看论文和代码。

AI 摘要

VLESA 是一个面向具身 AI 的安全框架，通过分析第一人称视频实时预测危险动作并触发干预。它解决了“意图依赖的安全”问题——相同动作在不同情境下可能安全或危险。研究团队引入了配对第一人称帧与目标条件安全标注的数据集，并训练了基于 GRPO 的目标条件安全 Q 过滤器，无需重新训练即可评估动作安全性。在 ASIMOV-2.0 基准上，VLESA 在精确帧上实现了更高的干预准确率，GRPO 训练的 Q 过滤器通过目标条件约束解码将动作安全性提升了超过 41 个百分点。代码已开源。

AI 翻译 · 中文

arXiv cs.LGAs AI systems increasingly assist humans in physical tasks, ensuring safety becomes paramount -- physical actions carry immediate and irreversible consequences that digital errors do not. We introduce the Vision-Language…

阅读原文