视觉语言模型·general

视觉语言模型

别名
首次出现
2026-05-22
最近出现
2026-06-12
累计提及
29
§ 01综述

视觉语言模型(VLM)近期在架构创新和效率优化上取得显著进展。传统VLM依赖Transformer解码器生成文本,但首token延迟高、推理成本大。最新研究表明,混合架构和稀疏模型可大幅降低延迟:Zyphra发布的Zamba2-VL采用Mamba2-Transformer混合设计,将首token延迟降低约一个数量级,同时保持输出质量(Zyphra 发布 Zamba2-VL)。

在能力提升方面,研究者从多角度增强VLM的视觉理解与推理。Reroute通过可恢复的视觉令牌路由机制,减少视觉信息丢失,显著提升多模态任务性能(Reroute)。TEVI利用稀疏自编码器优化CLIP图文对齐,使模型更精准捕捉视觉语义(TEVI)。MemDreamer引入分层图记忆与检索机制,解决长视频理解中的时序依赖问题(MemDreamer)。此外,Imaginative Perception Tokens方法通过生成想象性感知令牌,增强模型的空间推理能力(Imaginative Perception Tokens)。

当前焦点集中在三个方向:一是架构创新以实现高效推理,二是融合记忆或推理机制应对复杂场景(如视频理解、空间推理),三是领域特化——医疗、安全等垂直领域出现专用VLM,如FADA用于胎儿超声解读(FADA)、MedReCo用于放射科比较推理(MedReCo)。未来观察点包括:混合架构能否在更大规模上保持效率优势;记忆机制的泛化能力;以及VLM在安全关键场景中的零样本事故理解表现(零样本事故理解)。

§ 02相关报道10 条在档
  1. 01
    Zyphra 发布 Zamba2-VL:混合 Mamba2-Transformer 视觉语言模型,首 token 延迟降低约一个数量级
    marktechpost
  2. 02
    Reroute:可恢复视觉令牌路由,提升VLM性能
    arXiv cs.AI
  3. 03
    零样本事故理解:元数据感知的多提示推理方法
    arXiv cs.AI
  4. 04
    FADA:统一视觉语言模型实现胎儿超声解读与标注,单GPU可训练
    arXiv cs.AI
  5. 05
    多角色人格动态切换:视觉语言模型的行为建模研究
    arXiv cs.AI
  6. 06
    MemDreamer:分层图记忆与智能体检索机制实现长视频理解
    arXiv cs.AI
  7. 07
    TEVI:用稀疏自编码器优化CLIP图文对齐
    arXiv cs.AI
  8. 08
    MedReCo:面向放射科比较推理的视觉语言框架
    arXiv cs.LG
  9. 09
    Step 3.7 Flash:198B稀疏MoE视觉语言模型,推理效率优先
    Fireworks AI
  10. 10
    Imaginative Perception Tokens 提升多模态模型空间推理
    arXiv cs.AI
§ 03邻近话题

本页综述由 AITOP 基于公开报道整理。原报道版权归各自来源所有。

/topic/%E8%A7%86%E8%A7%89%E8%AF%AD%E8%A8%80%E6%A8%A1%E5%9E%8B