10:01arXiv cs.AI@Tarandeep Singh, Soumyanetra Pal, Soham Biswas, Nishanth Chandran精选本文提出一种三阶段流水线,用于从监控视频中零样本理解事故,包括何时发生冲击、何种类型以及发生在画面何处。第一阶段通过视觉-语言相似性提取冲击附近的时间窗口;第二阶段利用元数据驱动多提示推理,结合五个互补视角(基线、运动、几何、对比和决胜)并通过熵门控成对裁决器解决分歧;第三阶段基于预测的事故类型和场景布局,使用开放词汇检测器定位冲击,并通过得分加权质心聚合关键帧检测结果。该方法在零样本ACCIDENT @ CVPR基准上显著优于中心帧基线,表明将零样本视频理解分解为时间定位、语义分类和空间定位能比直接提示更可靠地利用视觉-语言模型。论文零样本学习视频理解多提示推理事故检测视觉-语言模型推荐理由:这篇论文解决了监控视频中事故理解的零样本难题,做视频分析或安全监控的开发者可以直接借鉴其三阶段分解思路,比传统提示方法更可靠,值得一试。原文