多模态大语言模型·general

多模态大语言模型

别名
首次出现
2026-05-25
最近出现
2026-06-08
累计提及
4
§ 01综述

多模态大语言模型(MLLM)正从“理解”向“记忆与推理”纵深发展,同时面临持续学习与高效适配的挑战。近期研究集中在两个方向:一是构建更贴近人类认知的视频理解框架,二是解决模型在动态任务中灾难性遗忘的问题。

  • 视频理解深化:一篇综述系统梳理MLLM在视频中的观看、记忆与推理能力,提出人类视角下的评估体系,强调长时程语义理解与逻辑链构建。(人类视角视频理解综述)
  • 持续学习突破:ProtoAda提出原型引导的自适应适配器扩展与几何整合,在不牺牲旧知识的前提下微调新模态指令,缓解灾难性遗忘。(ProtoAda)
  • 生成任务新范式:Squeeze MLLM利用多模态大模型驱动的主体控图生成,将语义理解直接转化为可控的图像编辑。(Squeeze MLLM)
  • 基础设施开源:Prism提供可复现的多模态持续指令调优框架,支持多种模型与任务插拔,降低社区研究门槛。(Prism)
  • 定位能力增强:PGT通过程序化生成任务数据,显著提升MLLM在细粒度视觉定位中的性能,证明合成数据对空间理解的促进作用。(PGT)
  • 当前焦点在于平衡“通用能力”与“持续进化”——模型需在新增模态或任务时不遗忘已有知识,同时强化视频理解中的长程推理。未来观察点包括:1) 自适应适配器架构能否普及至实时交互场景;2) 程序化生成数据是否成为解决定位与生成瓶颈的通用方案;3) 开源基础设施是否能推动多模态持续学习的标准化评估。

    § 02相关报道05 条在档
    1. 01
      人类视角视频理解综述:MLLM 的观看、记忆与推理
      arXiv cs.AI
    2. 02
      ProtoAda:原型引导自适应适配器扩展与几何整合,用于多模态持续指令微调
      arXiv cs.LG
    3. 03
      Squeeze MLLM: 多模态大模型驱动的主体驱动图像生成
      arXiv cs.AI
    4. 04
      Prism:面向可扩展多模态持续指令调优的插件式可复现基础设施
      arXiv cs.LG
    5. 05
      PGT:程序化生成任务提升MLLM视觉定位能力
      arXiv cs.AI
    § 03邻近话题

    本页综述由 AITOP 基于公开报道整理。原报道版权归各自来源所有。

    /topic/%E5%A4%9A%E6%A8%A1%E6%80%81%E5%A4%A7%E8%AF%AD%E8%A8%80%E6%A8%A1%E5%9E%8B