多模态大语言模型

§ 01综述

多模态大语言模型（MLLM）是能够同时处理和关联文本、图像、视频等多种模态信息的大型神经网络，正处于快速发展与能力扩展阶段。近期研究在不确定性估计、视觉理解、持续学习和训练效率等方向涌现出新方法，推动MLLM向更可靠、更可扩展的方向演进。

多模态大语言模型近期进展

不确定性估计新方法CoMet：发表于arXiv cs.LG（2026年6月），CoMet针对MLLM输出可靠性不足的问题，提出一种基于一致性测量的不确定性估计框架，通过多轮推理和模态间对比来量化模型置信度。该方法在多项多模态任务上优于现有基线，为高风险场景下的模型部署提供了工具。CoMet：多模态大语言模型不确定性估计的新方法

免训练语义修正方法Gazer：发表于arXiv cs.AI（2026年6月），Gazer专注于自回归视觉模型的生成质量，无需额外训练即可通过隐空间编辑修正语义错误。该方法在图像描述和视觉问答任务上显著提升准确性，表明轻量化后处理可以弥补MLLM的固有缺陷。Gazer: 面向自回归视觉模型的免训练语义修正方法

原型引导持续指令微调ProtoAda：发表于arXiv cs.LG（2026年6月），ProtoAda通过原型引导的自适应适配器和几何整合策略，解决MLLM在多任务持续学习中的灾难性遗忘问题。实验显示，该方法在连续引入新指令和模态时保持高精度，为构建可动态扩展的MLLM提供了范例。ProtoAda：原型引导自适应适配器扩展与几何整合，用于多模态持续指令微调

当前焦点与观察点

当前多模态大语言模型研究呈现三大焦点：一是提升模型可解释性与可靠性，如CoMet和Gazer分别从不确定性和语义修正角度切入；二是增强持续学习能力，ProtoAda和Prism等框架探索如何在不遗忘旧知识的前提下吸收新任务；三是深化细粒度视觉理解，如PGT通过程序化生成任务提升定位精度。这些工作在基础架构、训练策略和评估方法上各有突破，但距离成熟落地的多模态智能体仍有差距。未来需关注模型在开放场景下的泛化性、数据效率以及推理成本优化。

§ 02相关报道09 条在档

§ 03邻近话题