6月26日
11:34
11:34arXiv cs.AI@Tinghao Wang, Yichen Guo, Rui Huang, Zheng Lu, Qizhe Zhang, Chenxi Li, Yuan Zhang, Jiajun Cao, Zhirong Shen, Yaosong Du, Guangyan Gan, Wenya Wang, Lin William Cong, Shanghang Zhang
论文提出TOPS方法,从第一原理出发构建Token最优保留集。该方法基于任务相关性、信息覆盖和语义多样性三个原则。在7个MLLM骨干(如LLaVA-NeXT)和14个基准上,TOPS优于此前方法。在LLaVA-NeXT上,去除77.8%视觉token后,7B模型保持100.0%性能,13B模型提升至100.6%。结果表明剪枝冗余token可减轻幻觉。
推荐理由:这篇论文的TOPS方法能在剪掉近八成视觉token的同时保持甚至提升模型性能,很实用。
6月23日
12:05
12:05arXiv: DeepSeek@Youyang Yin, Huanhuan Liu, YY, Qunyi Xie, Chaorun Liu, Shiqi Yang, Shaohua Wang, Zhanlong Liu, Hao Zou, Jinyue Chen, Shu Wei, Jingjing Wu, Mingxin Huang, Zhen Wu, Guibin Wang, Tengyu Du, Lei Jia
Unlimited OCR 模型以 DeepSeek OCR 为基线,将所有解码器注意力层替换为 Reference Sliding Window Attention (R-SWA),使解码过程中 KV 缓存保持恒定,不再随输出长度增长。在标准最大长度 32K 下,Unlimited OCR 可一次性转录数十页文档。相比传统端到端 OCR 模型,Unlimited OCR 解决了长序列中内存和速度下降的问题。R-SWA 是一种通用解析注意力机制,还可应用于 ASR、翻译等任务。代码和权重已在 GitHub 开源。

推荐理由:百度新出的 Unlimted OCR 用了一种叫 R-SWA 的注意力机制,让它处理几十页文档时不会变慢,内存占用也恒定。想做长文档 OCR 的可以试试。
5月22日
5月12日