11:22arXiv cs.LG@Haitao Wu, Qirui Zhang, Zhouheng Yao, Shangquan Sun, Qihao Zheng, Mianxin Liu, Chi Zhang, Wanli Ouyang, Chunfeng Song, Changqing Zhang, Jiamin WuBrainJanus是首个将脑、视觉和语言整合到单一框架的统一脑模型。它引入Unified Brain Tokenizer将连续神经活动量化为离散Token,并与视觉和语言表征对齐到共享的Omni空间。基于All-in-One自回归架构,该模型通过下一个Token预测实现图像到脑、文本到脑的编码以及脑到图像、脑到文本的解码。在多项基准测试中,BrainJanus取得优越性能,并展现出零样本泛化能力和可解释的生物拓扑结构。代码已在GitHub开源。论文BrainJanus脑机接口多模态零样本学习脑解码推荐理由:这篇论文提出了BrainJanus,一个能双向翻译脑信号与图像、文本的统一模型,在零样本和生物可解释性上突破传统方法。原文
10:01arXiv cs.AI@Tarandeep Singh, Soumyanetra Pal, Soham Biswas, Nishanth Chandran精选本文提出一种三阶段流水线,用于从监控视频中零样本理解事故,包括何时发生冲击、何种类型以及发生在画面何处。第一阶段通过视觉-语言相似性提取冲击附近的时间窗口;第二阶段利用元数据驱动多提示推理,结合五个互补视角(基线、运动、几何、对比和决胜)并通过熵门控成对裁决器解决分歧;第三阶段基于预测的事故类型和场景布局,使用开放词汇检测器定位冲击,并通过得分加权质心聚合关键帧检测结果。该方法在零样本ACCIDENT @ CVPR基准上显著优于中心帧基线,表明将零样本视频理解分解为时间定位、语义分类和空间定位能比直接提示更可靠地利用视觉-语言模型。论文零样本学习视频理解多提示推理事故检测视觉-语言模型推荐理由:这篇论文解决了监控视频中事故理解的零样本难题,做视频分析或安全监控的开发者可以直接借鉴其三阶段分解思路,比传统提示方法更可靠,值得一试。原文