MLLMs

§ 01综述

MLLMs，即多模态大语言模型（Multimodal Large Language Models），是能同时理解和生成文本、图像等多种模态信息的深度学习模型，近年成为人工智能研究的前沿热点。它们不仅继承了纯语言模型的强大推理能力，还通过融合视觉编码器等模块，扩展了对非文本信息的处理能力。

MLLMs 近期进展

多视图结构推理评测：TriViewBench 是一个专门针对 MLLMs 多视图结构推理能力的受控复杂度基准，通过设计多视图对齐和结构推理任务，揭示当前模型在理解立体空间和组件关系上的不足。TriViewBench：多视图结构推理的受控复杂度基准

自适应交错推理方法：AIR（自适应交错推理）框架让 MLLMs 能在生成过程中灵活切换文本与代码模态，提升复杂数学、物理等问题的求解准确率，展现了跨模态推理的新范式。AIR：多模态大模型的自适应交错推理与代码

角色人格动态切换建模：最新研究通过多角色人格动态切换行为建模，量化 MLLMs 在不同人格设定下视觉问答表现的一致性，为开发更具拟人化交互能力的模型提供评估工具。多角色人格动态切换：视觉语言模型的行为建模研究

持续微调与适配器扩展：ProtoAda 和 Prism 两项工作分别从原型引导的适配器扩展和插件式基础设施角度，解决 MLLMs 在持续多模态指令微调中的灾难性遗忘与效率问题。ProtoAda：原型引导自适应适配器扩展与几何整合，用于多模态持续指令微调、Prism：面向可扩展多模态持续指令调优的插件式可复现基础设施

当前焦点与观察点

MLLMs 领域当前焦点集中在三方面：一是结构化感知与推理，如 TriViewBench 指出的，模型在多视图理解上仍有显著瓶颈；二是动态与自适应能力，AIR 和角色人格建模揭示了 MLLMs 需要更灵活的推理切换和个性化行为控制；三是持续学习与效率，ProtoAda、Prism 等探索了轻量扩展与模块复用，避免大模型全量微调的高成本。此外，视觉搜索（CVSearch）和轻量一致性模块（VIF）等微观技术改进，正在让 MLLMs 的高分辨率图像处理更精准。情感分析基准（MultiEmo-Bench）则扩展了 MLLMs 的社会感知维度。整体来看，MLLMs 的研究正从“能否融合”转向“如何高效、稳定、细粒度地融合多模态信息”，这也是未来落地应用的关键挑战。

§ 02相关报道09 条在档

§ 03邻近话题