视觉语言模型(VLM)近期在架构创新和效率优化上取得显著进展。传统VLM依赖Transformer解码器生成文本,但首token延迟高、推理成本大。最新研究表明,混合架构和稀疏模型可大幅降低延迟:Zyphra发布的Zamba2-VL采用Mamba2-Transformer混合设计,将首token延迟降低约一个数量级,同时保持输出质量(Zyphra 发布 Zamba2-VL)。
在能力提升方面,研究者从多角度增强VLM的视觉理解与推理。Reroute通过可恢复的视觉令牌路由机制,减少视觉信息丢失,显著提升多模态任务性能(Reroute)。TEVI利用稀疏自编码器优化CLIP图文对齐,使模型更精准捕捉视觉语义(TEVI)。MemDreamer引入分层图记忆与检索机制,解决长视频理解中的时序依赖问题(MemDreamer)。此外,Imaginative Perception Tokens方法通过生成想象性感知令牌,增强模型的空间推理能力(Imaginative Perception Tokens)。
当前焦点集中在三个方向:一是架构创新以实现高效推理,二是融合记忆或推理机制应对复杂场景(如视频理解、空间推理),三是领域特化——医疗、安全等垂直领域出现专用VLM,如FADA用于胎儿超声解读(FADA)、MedReCo用于放射科比较推理(MedReCo)。未来观察点包括:混合架构能否在更大规模上保持效率优势;记忆机制的泛化能力;以及VLM在安全关键场景中的零样本事故理解表现(零样本事故理解)。