全部 AI 动态 · AI 热点

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

6月8日

09:28

arXiv cs.AI@Jiahao Meng, Yue Tan, Qi Xu, Kuan Gao, Weisong Liu, Yanwei Li, Jason Li, Lingdong Kong, Haochen Wang, Qianyu Zhou, Jiangning Zhang, Guangliang Cheng, Yunhai Tong, Lu Qi, Minghsuan Yang

这篇综述从人类视角出发，系统梳理了多模态大语言模型（MLLM）在视频理解中的三大核心能力：观看（感知）、记忆（上下文保持）和推理（生成可靠输出）。文章提出统一框架，将视频理解系统分解为感知表征、记忆状态、推理轨迹和最终预测，并分析了时空感知、长视频高效处理、流式理解、忠实推理等关键挑战。作者按功能分类介绍了代表性方法，涵盖细粒度感知、多模态对齐、离线/流式记忆、纯文本与视频推理等方向，并讨论了第一人称、体育、教学、医疗等应用场景及评估基准。最后指出了可扩展、记忆感知、证据驱动的视频智能的未来方向。

论文多模态大语言模型视频理解综述记忆建模推理

推荐理由：做视频理解或 MLLM 研究的同学，这篇综述帮你把碎片化的方法统一到“观看-记忆-推理”框架下，省去自己梳理文献的时间，值得收藏作为 roadmap。

原文