mllms·concept

MLLMs

别名
首次出现
2026-05-22
最近出现
2026-06-15
累计提及
34
§ 01综述

多模态大语言模型(MLLMs)正从通用能力向专业化、轻量化和可扩展方向演进。近期研究聚焦于解决持续学习、视觉感知一致性以及细粒度情感理解等关键挑战。

  • 可扩展持续指令调优基础设施:Prism 提出一种插件式、可复现的基础设施,支持多模态持续指令调优,旨在解决 MLLMs 在持续学习新任务时的灾难性遗忘问题,并提升系统可扩展性(Prism:面向可扩展多模态持续指令调优的插件式可复现基础设施)。
  • 无训练自适应视觉搜索:CVSearch 针对高分辨率图像,提出一种无需额外训练的自适应视觉搜索方法,增强 MLLMs 对局部细节的感知能力,改善长尾或小目标识别(CVSearch:无需训练,自适应视觉搜索提升高分辨率图像感知)。
  • 轻量视觉一致性模块:VIF 设计轻量模块,通过校准多模态特征对齐,维持 MLLMs 在跨模态生成中的视觉与语义一致性,降低计算开销(VIF:轻量模块维持多模态大模型视觉一致性)。
  • 多标签视觉情感分析基准:MultiEmo-Bench 构建涵盖多标签情感类别的基准,系统评估 MLLMs 在复杂视觉情感分析中的表现,揭示现有模型在细粒度情感理解上的不足(MultiEmo-Bench:多标签视觉情感分析基准,评估多模态大模型)。
  • 当前焦点在于如何平衡 MLLMs 的性能提升与资源效率,特别是在持续学习、高分辨率输入处理和轻量化设计方面。未来观察点包括:这些方法能否泛化到更多模态组合,以及它们在真实场景(如具身智能、医疗影像)中的部署效果。

    § 02相关报道06 条在档
    1. 01
      多角色人格动态切换:视觉语言模型的行为建模研究
      arXiv cs.AI
    2. 02
      ProtoAda:原型引导自适应适配器扩展与几何整合,用于多模态持续指令微调
      arXiv cs.LG
    3. 03
      Prism:面向可扩展多模态持续指令调优的插件式可复现基础设施
      arXiv cs.LG
    4. 04
      CVSearch:无需训练,自适应视觉搜索提升高分辨率图像感知
      arXiv cs.LG
    5. 05
      VIF:轻量模块维持多模态大模型视觉一致性
      arXiv cs.AI
    6. 06
      MultiEmo-Bench:多标签视觉情感分析基准,评估多模态大模型
      arXiv: OpenAI
    § 03邻近话题

    本页综述由 AITOP 基于公开报道整理。原报道版权归各自来源所有。

    /topic/MLLMs