11:34arXiv cs.AI@Tinghao Wang, Yichen Guo, Rui Huang, Zheng Lu, Qizhe Zhang, Chenxi Li, Yuan Zhang, Jiajun Cao, Zhirong Shen, Yaosong Du, Guangyan Gan, Wenya Wang, Lin William Cong, Shanghang Zhang论文提出TOPS方法,从第一原理出发构建Token最优保留集。该方法基于任务相关性、信息覆盖和语义多样性三个原则。在7个MLLM骨干(如LLaVA-NeXT)和14个基准上,TOPS优于此前方法。在LLaVA-NeXT上,去除77.8%视觉token后,7B模型保持100.0%性能,13B模型提升至100.6%。结果表明剪枝冗余token可减轻幻觉。论文TOPSLLaVA-NeXTMLLM视觉token剪枝推理效率推荐理由:这篇论文的TOPS方法能在剪掉近八成视觉token的同时保持甚至提升模型性能,很实用。原文
12:05arXiv: DeepSeek@Youyang Yin, Huanhuan Liu, YY, Qunyi Xie, Chaorun Liu, Shiqi Yang, Shaohua Wang, Zhanlong Liu, Hao Zou, Jinyue Chen, Shu Wei, Jingjing Wu, Mingxin Huang, Zhen Wu, Guibin Wang, Tengyu Du, Lei JiaUnlimited OCR 模型以 DeepSeek OCR 为基线,将所有解码器注意力层替换为 Reference Sliding Window Attention (R-SWA),使解码过程中 KV 缓存保持恒定,不再随输出长度增长。在标准最大长度 32K 下,Unlimited OCR 可一次性转录数十页文档。相比传统端到端 OCR 模型,Unlimited OCR 解决了长序列中内存和速度下降的问题。R-SWA 是一种通用解析注意力机制,还可应用于 ASR、翻译等任务。代码和权重已在 GitHub 开源。论文Unlimited OCRDeepSeek OCRR-SWAOCR推理效率5 个信源在谈推荐理由:百度新出的 Unlimted OCR 用了一种叫 R-SWA 的注意力机制,让它处理几十页文档时不会变慢,内存占用也恒定。想做长文档 OCR 的可以试试。原文
12:23arXiv cs.LG@Mufei Li, Shikun Liu, Dongqi Fu, Haoyu Wang, Yinglong Xia, Hong Li, Hong Yan, Pan LiKVEraser是一种面向大语言模型KV缓存的编辑方法,旨在高效擦除已处理上下文中的指定片段。该论文提出,直接擦除会导致全局影响,需重新计算后续所有token,成本高昂。KVEraser通过两阶段训练(通用跨度-邻居预训练和任务微调),仅替换被擦除区间的KV状态,保留其余缓存。在1K至32K上下文长度的域内任务中,KVEraser的擦除后性能接近完全重计算,延迟仅增加24%,而完全重计算延迟增加17.6倍。在未见过的长文档问答任务中,KVEraser在有害事实干扰下比近似基线表现更好,速度比完全重计算快3至4倍。论文KVEraserKV缓存上下文擦除推理效率长上下文推荐理由:这篇论文提出KVEraser,能快速从大模型KV缓存中擦除指定内容,不用全部重算,1K-32K长度下延迟只增24%,效果接近重算,适合长上下文场景。原文
10:32arXiv: DeepSeek@Yan Wang, Qifan Zhang, Jiachen Yu, Tian Liang, Dongyang Ma, Xiang Hu, Zibo Lin, Chunyang Li, Zhichao Wang, Jia Li, Yujiu Yang, Haitao Mi, Dong Yu精选72°FlashMemory-DeepSeek-V4 提出了一种名为 Lookahead Sparse Attention (LSA) 的新型推理范式,通过神经记忆索引器预测未来上下文需求,仅保留关键 KV 块在 GPU 内存中。该架构采用解耦训练策略,将索引器作为独立双编码器训练,无需加载主模型。在 LongBench-v2、LongMemEval 等长上下文评测中,LSA 将物理 KV 缓存压缩至全上下文基线的 13.5%,同时下游准确率平均提升 0.6%。在 50 万 token 极端长度下,物理 KV 缓存开销降低超过 90%,且不损害模型核心推理能力。论文稀疏注意力长上下文KV缓存压缩DeepSeek-V4推理效率推荐理由:LSA 解决了超长上下文推理的 GPU 内存瓶颈,做长文档分析或大规模序列建模的团队可以直接参考其稀疏注意力方案,显著降低部署成本。原文
10:43arXiv: DeepSeek@Yuyang Wu, Qiyao Xue, Guanxing Lu, Weichen Liu, Zihan Wang, Manling Li, Olexandr Isayev精选CLORE 是一种针对大语言模型推理效率的内容级优化框架。它通过外部增强模型对正确的推理轨迹进行编辑,删除重复、不清晰或任务无关的内容,以及答案确定后的多余推理,同时保留最终答案。编辑后的轨迹与原始轨迹构成对比对,通过无参考的 DPO 目标与标准策略梯度训练联合优化。在 DeepSeek-R1-Distill-Qwen-7B 和 Qwen2.5-Math-7B 上的数学推理基准测试中,CLORE 提升了准确率与效率的平衡,并与 GRPO、DAPO 等方法兼容。内容级分析表明,CLORE 能有效减少重复推理、不清晰内容和答案后的探索,为长度级控制提供了互补方向。论文推理效率内容优化DPO数学推理CLORE推荐理由:CLORE 解决了推理模型输出冗长、重复的痛点,做推理优化或部署长链模型的团队可以直接参考其内容级编辑方法,比单纯限制长度更精细。原文
14:29arXiv cs.AI@Aditya Tanna, Nassim Bouarour, Mohamed Bouadi, Vinay Kumar Sankarapu, Pratinav Seth精选表格基础模型在健康数据集上表现优异,但高推理成本和基础设施需求限制了实际应用。研究者提出通过知识蒸馏将预测能力转移至轻量表格模型,并针对上下文表格模型在推理时依赖训练集导致的上下文泄露问题,采用分层折叠教师标注策略。在19个医疗数据集、6个教师模型、4个学生模型家族及多教师集成实验中,蒸馏学生模型保留了教师AUC的至少90%,部分甚至超越教师,同时CPU推理速度提升至少26倍,且保持校准性和公平性。多教师平均并未持续优于最佳单教师。该研究为推理受限的健康场景部署高质量预测提供了可行路径。论文表格基础模型知识蒸馏健康数据推理效率公平性推荐理由:医疗AI团队终于有了低成本部署高精度表格模型的方案——蒸馏后模型保留90%性能且快26倍,做健康数据预测的开发者可以直接用。原文
19:11arXiv cs.LG@Yash Akhauri, Mohamed S. AbdelfattahSOL(Self-Optimizing Language Models)提出了一种新方法,让大语言模型在解码时动态调整每个token的计算量。它使用一个轻量级策略网络,基于模型隐藏状态,决定每步的注意力稀疏度、MLP激活剪枝和量化位宽。通过组相对策略优化(GRPO)训练,在固定token序列上采样不同计算调度,并权衡质量与预算。实验表明,相比统一预算分配,SOL在MMLU上可提升高达7.3%,并发现更好的质量-效率帕累托前沿。论文推理效率动态预算分配强化学习量化/剪枝LLM推理优化推荐理由:该研究为推理效率优化提供了新思路,动态预算分配结合强化学习,可能在不牺牲质量的前提下显著降低计算成本。对部署大规模语言模型的企业和研究者有重要参考价值。原文
19:11arXiv: OpenAI@Sietse Schelpe70°本预印本实证分析了检索增强生成管道中字节级块去重的效果,涵盖三种不同模式:干净学术检索(22.2M BeIR段落字节减少0.16%)、构造企业模式(24.03%减少)和多轮对话AI(80.34%减少)。通过跨供应商5评委校准面板评估,使用Gemini 2.5 Flash、Claude Sonnet 4.6、Llama 3.3 70B和GPT-5.1四款API,应用五类别人工噪声去除协议,证明字节级去重引入了零可测量质量回归。所有API在干净和高冗余RAG模式下均通过严格的<5% Wilson 95%上限MAT阈值。该工作表明,无需牺牲评估级模型质量即可实现大量推理计算节省。论文RAG去重/优化推理效率质量评估开源/仓库推荐理由:该研究为RAG系统提供了一种确定性、无质量折损的优化方法,直接减少了推理计算成本,对实际部署具有明确指导意义。原文
19:11arXiv: OpenAI@Songtao Wei, Yi Li, Zhikai Li, Xu Hu, Yuede Ji, Guanpeng Li, Feng Chen, Carl Yang, Zhichun Guo, Bingzhe LiLEAD提出了一种在线自适应推理压缩方法,解决大推理模型(如OpenAI o1、DeepSeek-R1)在CoT过程中过度冗长的问题。传统强化学习方法使用静态权重和全局长度约束,难以平衡正确性与效率,且无法适应不同问题的推理预算需求。LEAD通过Potential-Scaled Instability动态校准每步的正确-效率权衡,并基于模型自身正确rollouts在线估计每个问题的目标长度,然后应用对称效率奖励——既惩罚过度思考也惩罚过度压缩。在五个数学推理基准上,LEAD取得了最高的准确率和准确-效率得分,同时生成比基础模型更短的输出。论文推理模型推理效率自适应压缩强化学习Chain-of-Thought5 个信源在谈推荐理由:该方法为推理模型部署中的计算效率问题提供了自适应解决方案,对于实际应用中降低推理成本和延迟具有重要价值,特别是在数学推理等需要长链推理的场景。原文