TOPS：基于最优保留集的视觉token剪枝方法提升MLLM推理效率

精选理由

这篇论文的TOPS方法能在剪掉近八成视觉token的同时保持甚至提升模型性能，很实用。

AI 摘要

论文提出TOPS方法，从第一原理出发构建Token最优保留集。该方法基于任务相关性、信息覆盖和语义多样性三个原则。在7个MLLM骨干（如LLaVA-NeXT）和14个基准上，TOPS优于此前方法。在LLaVA-NeXT上，去除77.8%视觉token后，7B模型保持100.0%性能，13B模型提升至100.6%。结果表明剪枝冗余token可减轻幻觉。

AI 翻译 · 中文

arXiv cs.AIMultimodal large language models (MLLMs) have achieved strong multimodal reasoning capabilities, but their efficiency is limited by the large number of visual tokens, which introduces substantial computational overhead. …

阅读原文