精选理由
VLM推理成本高是实际部署的痛点,Reroute用零训练代价解决了令牌缩减中信息丢失的问题,做多模态模型优化或部署的团队可以直接集成到现有方案中,值得一试。
视觉语言模型(VLM)将图像投影为数百到数千个视觉令牌,导致解码器推理成本高昂。现有方法通常采用“排序并移除”范式,永久丢弃低分令牌。但研究发现,视觉令牌的重要性会随解码器深度变化,早期低分令牌可能在后续层变得重要。为此,研究者提出Reroute,一种无需训练的插件,将移除改为可恢复路由:被延迟的令牌在后续阶段重新进入候选池。该方法在FastV、PDrop等方案上,在LLaVA-1.5和Qwen骨干上,在激进令牌缩减下提升了接地性能,同时保持VQA性能。这表明VLM令牌缩减应视为可恢复路由,而非不可逆修剪。代码已开源。
AI 翻译 · 中文
视觉语言模型(VLM)将图像投影为数百到数千个视觉令牌,导致解码器推理成本高昂。现有方法通常采用“排序并移除”范式,永久丢弃低分令牌。但研究发现,视觉令牌的重要性会随解码器深度变化,早期低分令牌可能在后续层变得重要。为此,研究者提出Reroute,一种无需训练的插件,将移除改为可恢复路由:被延迟的令牌在后续阶段重新进入候选池。该方法在FastV、PDrop等方案上,在LLaVA-1.5和Qwen骨干上,在激进令牌缩减下提升了接地性能,同时保持VQA性能。这表明VLM令牌缩减应视为可恢复路由,而非不可逆修剪。代码已开源。
Vision-language models (VLMs) project images into hundreds to thousands of visual tokens, making decoder inference expensive in both attention computation and KV-cache memory. Existing visual-token reduction methods larg…