09:28
arXiv cs.AI@Jiahao Meng, Yue Tan, Qi Xu, Kuan Gao, Weisong Liu, Yanwei Li, Jason Li, Lingdong Kong, Haochen Wang, Qianyu Zhou, Jiangning Zhang, Guangliang Cheng, Yunhai Tong, Lu Qi, Minghsuan Yang 这篇综述从人类视角出发,系统梳理了多模态大语言模型(MLLM)在视频理解中的三大核心能力:观看(感知)、记忆(上下文保持)和推理(生成可靠输出)。文章提出统一框架,将视频理解系统分解为感知表征、记忆状态、推理轨迹和最终预测,并分析了时空感知、长视频高效处理、流式理解、忠实推理等关键挑战。作者按功能分类介绍了代表性方法,涵盖细粒度感知、多模态对齐、离线/流式记忆、纯文本与视频推理等方向,并讨论了第一人称、体育、教学、医疗等应用场景及评估基准。最后指出了可扩展、记忆感知、证据驱动的视频智能的未来方向。
推荐理由:做视频理解或 MLLM 研究的同学,这篇综述帮你把碎片化的方法统一到“观看-记忆-推理”框架下,省去自己梳理文献的时间,值得收藏作为 roadmap。