UNIEGO:代理作为中介的统一自我中心视频表示学习

UNIEGO: Proxies as Mediators for Unified Egocentric Video Representation Learning

精选理由

想用多视角多模态数据训练视频理解模型?UNIEGO用代理模型搞定异构教师蒸馏,在三个任务上刷新了纪录。

AI 摘要

UNIEGO提出分层多教师蒸馏框架,使用9个教师(覆盖自我/他人视角、RGB/深度/骨架模态和4个基础模型)来训练统一编码器。为解决异构教师的不兼容架构和特征几何冲突,框架引入代理模型将不同教师知识翻译到同质化的自我中心空间。第二阶段选择性代理蒸馏(SPD)为每个样本自适应选择正确且自信的代理子集,抑制错误信号。UNIEGO在三个自我中心视频基准(动作识别、视频检索、动作分割)上达到最先进性能。

AI 翻译 · 中文

UNIEGO提出分层多教师蒸馏框架,使用9个教师(覆盖自我/他人视角、RGB/深度/骨架模态和4个基础模型)来训练统一编码器。为解决异构教师的不兼容架构和特征几何冲突,框架引入代理模型将不同教师知识翻译到同质化的自我中心空间。第二阶段选择性代理蒸馏(SPD)为每个样本自适应选择正确且自信的代理子集,抑制错误信号。UNIEGO在三个自我中心视频基准(动作识别、视频检索、动作分割)上达到最先进性能。

arXiv cs.LGEgocentric video understanding is inherently limited by the narrow perspective of wearable cameras: a single viewpoint, a single modality, a single model cannot capture the full richness of human action. We argue that a