精选理由
想用多视角多模态数据训练视频理解模型?UNIEGO用代理模型搞定异构教师蒸馏,在三个任务上刷新了纪录。
UNIEGO提出分层多教师蒸馏框架,使用9个教师(覆盖自我/他人视角、RGB/深度/骨架模态和4个基础模型)来训练统一编码器。为解决异构教师的不兼容架构和特征几何冲突,框架引入代理模型将不同教师知识翻译到同质化的自我中心空间。第二阶段选择性代理蒸馏(SPD)为每个样本自适应选择正确且自信的代理子集,抑制错误信号。UNIEGO在三个自我中心视频基准(动作识别、视频检索、动作分割)上达到最先进性能。
AI 翻译 · 中文
UNIEGO提出分层多教师蒸馏框架,使用9个教师(覆盖自我/他人视角、RGB/深度/骨架模态和4个基础模型)来训练统一编码器。为解决异构教师的不兼容架构和特征几何冲突,框架引入代理模型将不同教师知识翻译到同质化的自我中心空间。第二阶段选择性代理蒸馏(SPD)为每个样本自适应选择正确且自信的代理子集,抑制错误信号。UNIEGO在三个自我中心视频基准(动作识别、视频检索、动作分割)上达到最先进性能。
Egocentric video understanding is inherently limited by the narrow perspective of wearable cameras: a single viewpoint, a single modality, a single model cannot capture the full richness of human action. We argue that a …