论文精选

VLESA:视觉语言具身安全代理,实时监控人类活动

VLESA: Vision-Language Embodied Safety Agent for Human Activity Monitoring

精选理由

做具身 AI 安全或人机协作的团队,VLESA 提供了一个可落地的实时安全监控方案,能根据上下文判断危险动作,建议直接看论文和代码。

AI 摘要

VLESA 是一个面向具身 AI 的安全框架,通过分析第一人称视频实时预测危险动作并触发干预。它解决了“意图依赖的安全”问题——相同动作在不同情境下可能安全或危险。研究团队引入了配对第一人称帧与目标条件安全标注的数据集,并训练了基于 GRPO 的目标条件安全 Q 过滤器,无需重新训练即可评估动作安全性。在 ASIMOV-2.0 基准上,VLESA 在精确帧上实现了更高的干预准确率,GRPO 训练的 Q 过滤器通过目标条件约束解码将动作安全性提升了超过 41 个百分点。代码已开源。

AI 翻译 · 中文

VLESA 是一个面向具身 AI 的安全框架,通过分析第一人称视频实时预测危险动作并触发干预。它解决了“意图依赖的安全”问题——相同动作在不同情境下可能安全或危险。研究团队引入了配对第一人称帧与目标条件安全标注的数据集,并训练了基于 GRPO 的目标条件安全 Q 过滤器,无需重新训练即可评估动作安全性。在 ASIMOV-2.0 基准上,VLESA 在精确帧上实现了更高的干预准确率,GRPO 训练的 Q 过滤器通过目标条件约束解码将动作安全性提升了超过 41 个百分点。代码已开源。

arXiv cs.LGAs AI systems increasingly assist humans in physical tasks, ensuring safety becomes paramount -- physical actions carry immediate and irreversible consequences that digital errors do not. We introduce the Vision-Language