11:30arXiv cs.AI@Cheng-Yu Yang, Shao-Yuan Lo, Yu-Lun Liu精选视觉语言模型(VLM)将图像投影为数百到数千个视觉令牌,导致解码器推理成本高昂。现有方法通常采用“排序并移除”范式,永久丢弃低分令牌。但研究发现,视觉令牌的重要性会随解码器深度变化,早期低分令牌可能在后续层变得重要。为此,研究者提出Reroute,一种无需训练的插件,将移除改为可恢复路由:被延迟的令牌在后续阶段重新进入候选池。该方法在FastV、PDrop等方案上,在LLaVA-1.5和Qwen骨干上,在激进令牌缩减下提升了接地性能,同时保持VQA性能。这表明VLM令牌缩减应视为可恢复路由,而非不可逆修剪。代码已开源。论文视觉语言模型令牌缩减可恢复路由推理优化开源/仓库推荐理由:VLM推理成本高是实际部署的痛点,Reroute用零训练代价解决了令牌缩减中信息丢失的问题,做多模态模型优化或部署的团队可以直接集成到现有方案中,值得一试。原文