TOPS:基于最优保留集的视觉token剪枝方法提升MLLM推理效率

TOPS: First-Principles Visual Token Pruning via Constructing Token Optimal Preservation Sets for Efficient MLLM Inference

精选理由

这篇论文的TOPS方法能在剪掉近八成视觉token的同时保持甚至提升模型性能,很实用。

AI 摘要

论文提出TOPS方法,从第一原理出发构建Token最优保留集。该方法基于任务相关性、信息覆盖和语义多样性三个原则。在7个MLLM骨干(如LLaVA-NeXT)和14个基准上,TOPS优于此前方法。在LLaVA-NeXT上,去除77.8%视觉token后,7B模型保持100.0%性能,13B模型提升至100.6%。结果表明剪枝冗余token可减轻幻觉。

AI 翻译 · 中文

论文提出TOPS方法,从第一原理出发构建Token最优保留集。该方法基于任务相关性、信息覆盖和语义多样性三个原则。在7个MLLM骨干(如LLaVA-NeXT)和14个基准上,TOPS优于此前方法。在LLaVA-NeXT上,去除77.8%视觉token后,7B模型保持100.0%性能,13B模型提升至100.6%。结果表明剪枝冗余token可减轻幻觉。

arXiv cs.AIMultimodal large language models (MLLMs) have achieved strong multimodal reasoning capabilities, but their efficiency is limited by the large number of visual tokens, which introduces substantial computational overhead.