Semantic Flip:合成OOD样本用于具身问答与空间定位的拒绝

Semantic Flip: Synthetic OOD Generation for Robust Refusal in Embodied Question Answering and Spatial Localization

精选理由

这篇论文教具身AI什么时候该说'我不知道',不用额外训练数据就有效。

AI 摘要

现代视觉语言模型在具身问答中对不可回答查询常产生过度自信回答。本文提出的Semantic Flip框架通过独立变换查询与视频记忆合成辅助OOD样本,无需外部标注即可训练轻量拒绝模块。该方法可附加到任何冻结的预训练VLM上。在SpaceReject基准上,Semantic Flip取得0.9559的F1分数。

AI 翻译 · 中文

现代视觉语言模型在具身问答中对不可回答查询常产生过度自信回答。本文提出的Semantic Flip框架通过独立变换查询与视频记忆合成辅助OOD样本,无需外部标注即可训练轻量拒绝模块。该方法可附加到任何冻结的预训练VLM上。在SpaceReject基准上,Semantic Flip取得0.9559的F1分数。

arXiv cs.AIDetecting unanswerable user queries remains essential for the reliable deployment of real-world embodied agents. However, modern vision-language models (VLMs) often generate overly confident answers even when the availab