人类视角视频理解综述:MLLM 的观看、记忆与推理

Watch, Remember, Reason: Human-View Video Understanding with MLLMs

精选理由

做视频理解或 MLLM 研究的同学,这篇综述帮你把碎片化的方法统一到“观看-记忆-推理”框架下,省去自己梳理文献的时间,值得收藏作为 roadmap。

AI 摘要

这篇综述从人类视角出发,系统梳理了多模态大语言模型(MLLM)在视频理解中的三大核心能力:观看(感知)、记忆(上下文保持)和推理(生成可靠输出)。文章提出统一框架,将视频理解系统分解为感知表征、记忆状态、推理轨迹和最终预测,并分析了时空感知、长视频高效处理、流式理解、忠实推理等关键挑战。作者按功能分类介绍了代表性方法,涵盖细粒度感知、多模态对齐、离线/流式记忆、纯文本与视频推理等方向,并讨论了第一人称、体育、教学、医疗等应用场景及评估基准。最后指出了可扩展、记忆感知、证据驱动的视频智能的未来方向。

AI 翻译 · 中文

这篇综述从人类视角出发,系统梳理了多模态大语言模型(MLLM)在视频理解中的三大核心能力:观看(感知)、记忆(上下文保持)和推理(生成可靠输出)。文章提出统一框架,将视频理解系统分解为感知表征、记忆状态、推理轨迹和最终预测,并分析了时空感知、长视频高效处理、流式理解、忠实推理等关键挑战。作者按功能分类介绍了代表性方法,涵盖细粒度感知、多模态对齐、离线/流式记忆、纯文本与视频推理等方向,并讨论了第一人称、体育、教学、医疗等应用场景及评估基准。最后指出了可扩展、记忆感知、证据驱动的视频智能的未来方向。

arXiv cs.AIVideo understanding is being rapidly transformed by multimodal large language models (MLLMs), as research moves from short clips to long, multimodal, and knowledge-intensive video scenarios. These scenarios require model