Zyphra 发布 Zamba2-VL:混合 Mamba2-Transformer 视觉语言模型,首 token 延迟降低约一个数量级

Zyphra Release Zamba2-VL: Hybrid Mamba2–Transformer Vision-Language Models That Cut Time-to-First-Token by About an Order of Magnitude

精选理由

做视觉语言模型部署或实时推理的开发者,Zamba2-VL 的首 token 延迟优势能显著提升用户体验,值得直接尝试。

AI 摘要

Zyphra 发布了 Zamba2-VL 系列开源视觉语言模型,包含 1.2B、2.7B 和 7B 三个参数版本。该模型采用混合 Mamba2 状态空间和 Transformer 骨干架构,在 Apache 2.0 许可下发布。与同类 Transformer 视觉语言模型相比,Zamba2-VL 在保持竞争力的同时,将首 token 生成时间降低了约一个数量级。这标志着在高效视觉语言推理方面的重要进展,尤其适合对延迟敏感的应用场景。

AI 翻译 · 中文

Zyphra 发布了 Zamba2-VL 系列开源视觉语言模型,包含 1.2B、2.7B 和 7B 三个参数版本。该模型采用混合 Mamba2 状态空间和 Transformer 骨干架构,在 Apache 2.0 许可下发布。与同类 Transformer 视觉语言模型相比,Zamba2-VL 在保持竞争力的同时,将首 token 生成时间降低了约一个数量级。这标志着在高效视觉语言推理方面的重要进展,尤其适合对延迟敏感的应用场景。

marktechpostZyphra has released Zamba2-VL, a family of open vision-language models at 1.2B, 2.7B, and 7B parameters. The models use a hybrid Mamba2 state-space and Transformer backbone, shipping under Apache 2.0. They stay competiti