11:47arXiv cs.LG@Wenhao Chi, Arkaprava Sinha, Dominick Reilly, Hieu Le, Srijan DasUNIEGO提出分层多教师蒸馏框架,使用9个教师(覆盖自我/他人视角、RGB/深度/骨架模态和4个基础模型)来训练统一编码器。为解决异构教师的不兼容架构和特征几何冲突,框架引入代理模型将不同教师知识翻译到同质化的自我中心空间。第二阶段选择性代理蒸馏(SPD)为每个样本自适应选择正确且自信的代理子集,抑制错误信号。UNIEGO在三个自我中心视频基准(动作识别、视频检索、动作分割)上达到最先进性能。AI模型UNIEGO自我中心视频知识蒸馏表示学习多模态推荐理由:想用多视角多模态数据训练视频理解模型?UNIEGO用代理模型搞定异构教师蒸馏,在三个任务上刷新了纪录。原文
01:10AK@_akhaliqEgoMemReason 是一个新的基准测试,专门用于评估 AI 在长时间自我中心视频理解中的记忆驱动推理能力。该基准要求模型在观看长视频后,基于记忆回答关于事件顺序、因果关系和细节的问题。它填补了现有视频理解基准在长期记忆和推理方面的空白,对开发更智能的视觉助手和机器人有重要意义。论文基准测试视频理解记忆推理自我中心视频长期推理推荐理由:做视频理解或具身智能的团队终于有了一个专门测试长期记忆推理的基准——EgoMemReason 直击当前模型在长视频中“看完就忘”的痛点,做相关研究的建议直接拿来评估自己的模型。原文