视觉语言模型

§ 01综述

视觉语言模型（VLM）近期在架构创新和效率优化上取得显著进展。传统VLM依赖Transformer解码器生成文本，但首token延迟高、推理成本大。最新研究表明，混合架构和稀疏模型可大幅降低延迟：Zyphra发布的Zamba2-VL采用Mamba2-Transformer混合设计，将首token延迟降低约一个数量级，同时保持输出质量（Zyphra 发布 Zamba2-VL）。

在能力提升方面，研究者从多角度增强VLM的视觉理解与推理。Reroute通过可恢复的视觉令牌路由机制，减少视觉信息丢失，显著提升多模态任务性能（Reroute）。TEVI利用稀疏自编码器优化CLIP图文对齐，使模型更精准捕捉视觉语义（TEVI）。MemDreamer引入分层图记忆与检索机制，解决长视频理解中的时序依赖问题（MemDreamer）。此外，Imaginative Perception Tokens方法通过生成想象性感知令牌，增强模型的空间推理能力（Imaginative Perception Tokens）。

当前焦点集中在三个方向：一是架构创新以实现高效推理，二是融合记忆或推理机制应对复杂场景（如视频理解、空间推理），三是领域特化——医疗、安全等垂直领域出现专用VLM，如FADA用于胎儿超声解读（FADA）、MedReCo用于放射科比较推理（MedReCo）。未来观察点包括：混合架构能否在更大规模上保持效率优势；记忆机制的泛化能力；以及VLM在安全关键场景中的零样本事故理解表现（零样本事故理解）。

§ 02相关报道10 条在档

§ 03邻近话题