精选理由
做视频理解或 MLLM 研究的同学,这篇综述帮你把碎片化的方法统一到“观看-记忆-推理”框架下,省去自己梳理文献的时间,值得收藏作为 roadmap。
这篇综述从人类视角出发,系统梳理了多模态大语言模型(MLLM)在视频理解中的三大核心能力:观看(感知)、记忆(上下文保持)和推理(生成可靠输出)。文章提出统一框架,将视频理解系统分解为感知表征、记忆状态、推理轨迹和最终预测,并分析了时空感知、长视频高效处理、流式理解、忠实推理等关键挑战。作者按功能分类介绍了代表性方法,涵盖细粒度感知、多模态对齐、离线/流式记忆、纯文本与视频推理等方向,并讨论了第一人称、体育、教学、医疗等应用场景及评估基准。最后指出了可扩展、记忆感知、证据驱动的视频智能的未来方向。
AI 翻译 · 中文
这篇综述从人类视角出发,系统梳理了多模态大语言模型(MLLM)在视频理解中的三大核心能力:观看(感知)、记忆(上下文保持)和推理(生成可靠输出)。文章提出统一框架,将视频理解系统分解为感知表征、记忆状态、推理轨迹和最终预测,并分析了时空感知、长视频高效处理、流式理解、忠实推理等关键挑战。作者按功能分类介绍了代表性方法,涵盖细粒度感知、多模态对齐、离线/流式记忆、纯文本与视频推理等方向,并讨论了第一人称、体育、教学、医疗等应用场景及评估基准。最后指出了可扩展、记忆感知、证据驱动的视频智能的未来方向。
Video understanding is being rapidly transformed by multimodal large language models (MLLMs), as research moves from short clips to long, multimodal, and knowledge-intensive video scenarios. These scenarios require model…