11:34arXiv cs.AI@Tinghao Wang, Yichen Guo, Rui Huang, Zheng Lu, Qizhe Zhang, Chenxi Li, Yuan Zhang, Jiajun Cao, Zhirong Shen, Yaosong Du, Guangyan Gan, Wenya Wang, Lin William Cong, Shanghang Zhang论文提出TOPS方法,从第一原理出发构建Token最优保留集。该方法基于任务相关性、信息覆盖和语义多样性三个原则。在7个MLLM骨干(如LLaVA-NeXT)和14个基准上,TOPS优于此前方法。在LLaVA-NeXT上,去除77.8%视觉token后,7B模型保持100.0%性能,13B模型提升至100.6%。结果表明剪枝冗余token可减轻幻觉。论文TOPSLLaVA-NeXTMLLM视觉token剪枝推理效率推荐理由:这篇论文的TOPS方法能在剪掉近八成视觉token的同时保持甚至提升模型性能,很实用。原文
12:05arXiv: DeepSeek@Youyang Yin, Huanhuan Liu, YY, Qunyi Xie, Chaorun Liu, Shiqi Yang, Shaohua Wang, Zhanlong Liu, Hao Zou, Jinyue Chen, Shu Wei, Jingjing Wu, Mingxin Huang, Zhen Wu, Guibin Wang, Tengyu Du, Lei JiaUnlimited OCR 模型以 DeepSeek OCR 为基线,将所有解码器注意力层替换为 Reference Sliding Window Attention (R-SWA),使解码过程中 KV 缓存保持恒定,不再随输出长度增长。在标准最大长度 32K 下,Unlimited OCR 可一次性转录数十页文档。相比传统端到端 OCR 模型,Unlimited OCR 解决了长序列中内存和速度下降的问题。R-SWA 是一种通用解析注意力机制,还可应用于 ASR、翻译等任务。代码和权重已在 GitHub 开源。论文Unlimited OCRDeepSeek OCRR-SWAOCR推理效率5 个信源在谈推荐理由:百度新出的 Unlimted OCR 用了一种叫 R-SWA 的注意力机制,让它处理几十页文档时不会变慢,内存占用也恒定。想做长文档 OCR 的可以试试。原文
18:43Together AI@togethercomputeTogether AI 在推文中指出,当团队运行数十亿 tokens 时,缓存、吞吐量和服务效率的微小差异会转化为产品级的经济性。以 MiniMax M3 模型为例,该模型在 Together AI 平台上提供前沿品质和开放模型经济学,其服务栈专为规模化设计。这体现了开放模型在生产中的实际成本竞争力。AI模型MiniMax M3Together AI开放模型推理效率经济性2 个信源在谈推荐理由:看看 Together AI 怎么用 MiniMax M3 把开放模型做大,跑几十亿 tokens 还省钱。不是吹概念,是实打实的缓存和吞吐量优化。原文
01:32SiliconFlowAI@siliconflowai精选MoonshotAI 基于 K2.6 推出了 Kimi K2.7 Code,参数量为 32B 激活/1T 总参数,支持交错思考与多步工具调用。相比 K2.6,推理 token 使用量降低 30%,在编码与指令遵循上表现提升,接近 GPT-5.5 和 Opus 4.8。定价为缓存输入/输入/输出每百万 token 0.19/0.94/4.00 美元。该模型可在 SiliconFlow 上使用。AI模型Kimi K2.7 CodeMoonshotAI编码模型推理效率VLM5 个信源在谈推荐理由:想少想多做?K2.7 Code 编码专用,推理开销比 K2.6 低三成,还能对标 GPT-5.5,适合写代码时不用纠结。原文
12:23arXiv cs.LG@Mufei Li, Shikun Liu, Dongqi Fu, Haoyu Wang, Yinglong Xia, Hong Li, Hong Yan, Pan LiKVEraser是一种面向大语言模型KV缓存的编辑方法,旨在高效擦除已处理上下文中的指定片段。该论文提出,直接擦除会导致全局影响,需重新计算后续所有token,成本高昂。KVEraser通过两阶段训练(通用跨度-邻居预训练和任务微调),仅替换被擦除区间的KV状态,保留其余缓存。在1K至32K上下文长度的域内任务中,KVEraser的擦除后性能接近完全重计算,延迟仅增加24%,而完全重计算延迟增加17.6倍。在未见过的长文档问答任务中,KVEraser在有害事实干扰下比近似基线表现更好,速度比完全重计算快3至4倍。论文KVEraserKV缓存上下文擦除推理效率长上下文推荐理由:这篇论文提出KVEraser,能快速从大模型KV缓存中擦除指定内容,不用全部重算,1K-32K长度下延迟只增24%,效果接近重算,适合长上下文场景。原文
15:24量子位@思邈研究团队提出OrcaRouter,一种多模型路由方法。该方法通过动态选择多个小模型协作,在性能上反超了单一大型模型Fable 5。同时大幅降低了推理成本。OrcaRouter的实现验证了多模型集成可行且高效。AI模型OrcaRouterFable 5多模型路由推理效率10 个信源在谈推荐理由:想低成本体验Fable 5级效果?OrcaRouter让一群小模型组队打架,结果更猛,值得一试。原文
21:33kimi_moonshot@kimi_moonshot月之暗面发布并开源了最新编程模型 Kimi-K2.7-Code,相比 K2.6 在 Kimi Code Bench v2 上提升 21.8%,在 Program Bench 上提升 11.0%,在 MLS Bench Lite 上提升 31.5%。该模型减少了过度思考,推理 token 使用量降低 30%,同时改进了长时编程任务中的指令遵循和成功率。模型已通过 Kimi API 和 Kimi Code 可用,即将推出 6 倍高速模式。AI模型编程模型开源/仓库推理效率智能体Kimi推荐理由:Kimi-K2.7-Code 在编程和智能体任务上显著超越前代,且推理更高效,做 AI 编程或智能体开发的团队可以直接通过 API 或 Kimi Code 试用,值得关注。原文
10:32arXiv: DeepSeek@Yan Wang, Qifan Zhang, Jiachen Yu, Tian Liang, Dongyang Ma, Xiang Hu, Zibo Lin, Chunyang Li, Zhichao Wang, Jia Li, Yujiu Yang, Haitao Mi, Dong Yu精选72°FlashMemory-DeepSeek-V4 提出了一种名为 Lookahead Sparse Attention (LSA) 的新型推理范式,通过神经记忆索引器预测未来上下文需求,仅保留关键 KV 块在 GPU 内存中。该架构采用解耦训练策略,将索引器作为独立双编码器训练,无需加载主模型。在 LongBench-v2、LongMemEval 等长上下文评测中,LSA 将物理 KV 缓存压缩至全上下文基线的 13.5%,同时下游准确率平均提升 0.6%。在 50 万 token 极端长度下,物理 KV 缓存开销降低超过 90%,且不损害模型核心推理能力。论文稀疏注意力长上下文KV缓存压缩DeepSeek-V4推理效率推荐理由:LSA 解决了超长上下文推理的 GPU 内存瓶颈,做长文档分析或大规模序列建模的团队可以直接参考其稀疏注意力方案,显著降低部署成本。原文
12:49Fireworks AI@FireworksAI_HQ精选72°Step 3.7 Flash 是阶跃星辰(StepFun)发布的 198B 稀疏 MoE 视觉语言模型,专为推理效率从头设计。该模型包含 196B 语言骨干和 1.8B 视觉编码器,支持原生多模态理解和行动,可靠工具使用,以及增强的网页和视觉搜索。在真实智能体工作负载下,推理速度可达 400 tok/sec,并采用 Apache 2.0 开源许可。Fireworks AI 已提供在线试用。AI模型视觉语言模型稀疏MoE推理效率智能体StepFun1 个信源在谈推荐理由:多数实验室事后才考虑推理效率,而 Step 3.7 Flash 从设计之初就为推理优化,做智能体应用和视觉语言模型的开发者可以直接试用,感受 400 tok/sec 的流畅体验。原文
07:56Fireworks AI@FireworksAI_HQ精选76°StepFun 发布 Step 3.7 Flash,一个 196B 参数的 MoE 模型,从设计之初就针对推理效率进行优化。它采用多矩阵分解注意力(MFA)技术,KV-cache 仅为 DeepSeek 的约 22%,并通过注意力-FFN 解耦(AFD)实现硬件优化的服务。模型在 ClawEval-1.1、SimpleVQA Search 等基准测试中排名第一,支持 400 TPS 的推理速度,256K 上下文窗口,并具备三种推理级别。它专为智能体、编程、搜索和多模态工作流设计,支持本地运行(如 Mac Studio M4 Max),并采用 Apache 2.0 许可证开放权重。AI模型Step 3.7 FlashMoE推理效率MFAApache 2.0推荐理由:Step 3.7 Flash 把推理效率从模型设计阶段就考虑进去,做智能体或搜索应用的团队可以直接在 Fireworks 上试用,成本可能比 DeepSeek 低很多。原文
10:43arXiv: DeepSeek@Yuyang Wu, Qiyao Xue, Guanxing Lu, Weichen Liu, Zihan Wang, Manling Li, Olexandr Isayev精选CLORE 是一种针对大语言模型推理效率的内容级优化框架。它通过外部增强模型对正确的推理轨迹进行编辑,删除重复、不清晰或任务无关的内容,以及答案确定后的多余推理,同时保留最终答案。编辑后的轨迹与原始轨迹构成对比对,通过无参考的 DPO 目标与标准策略梯度训练联合优化。在 DeepSeek-R1-Distill-Qwen-7B 和 Qwen2.5-Math-7B 上的数学推理基准测试中,CLORE 提升了准确率与效率的平衡,并与 GRPO、DAPO 等方法兼容。内容级分析表明,CLORE 能有效减少重复推理、不清晰内容和答案后的探索,为长度级控制提供了互补方向。论文推理效率内容优化DPO数学推理CLORE推荐理由:CLORE 解决了推理模型输出冗长、重复的痛点,做推理优化或部署长链模型的团队可以直接参考其内容级编辑方法,比单纯限制长度更精细。原文
02:11rohanpaul_ai@rohanpaul_aiNvidia的Shruti Koparkar提出,并非所有token都等价,其价值由嵌入的智能密度和生成速度共同决定。慢速token即使计算成本低,也可能因延迟破坏产品体验;快速token若推理浅薄或输出冗余,同样浪费。不同场景(如医疗分诊、编程助手、购物聊天)对token的需求截然不同,token经济应从用户对不确定性、延迟和成本的容忍度出发,而非仅看模型菜单。行业token经济AI产品设计延迟优化推理效率Nvidia3 个信源在谈推荐理由:做AI产品定价和优化的团队,这篇能帮你重新理解token的「价值」——不是算力便宜就划算,用户等不起的token再便宜也是浪费。建议结合自己的场景算算账。原文
14:29arXiv cs.AI@Aditya Tanna, Nassim Bouarour, Mohamed Bouadi, Vinay Kumar Sankarapu, Pratinav Seth精选表格基础模型在健康数据集上表现优异,但高推理成本和基础设施需求限制了实际应用。研究者提出通过知识蒸馏将预测能力转移至轻量表格模型,并针对上下文表格模型在推理时依赖训练集导致的上下文泄露问题,采用分层折叠教师标注策略。在19个医疗数据集、6个教师模型、4个学生模型家族及多教师集成实验中,蒸馏学生模型保留了教师AUC的至少90%,部分甚至超越教师,同时CPU推理速度提升至少26倍,且保持校准性和公平性。多教师平均并未持续优于最佳单教师。该研究为推理受限的健康场景部署高质量预测提供了可行路径。论文表格基础模型知识蒸馏健康数据推理效率公平性推荐理由:医疗AI团队终于有了低成本部署高精度表格模型的方案——蒸馏后模型保留90%性能且快26倍,做健康数据预测的开发者可以直接用。原文
19:11arXiv cs.LG@Yash Akhauri, Mohamed S. AbdelfattahSOL(Self-Optimizing Language Models)提出了一种新方法,让大语言模型在解码时动态调整每个token的计算量。它使用一个轻量级策略网络,基于模型隐藏状态,决定每步的注意力稀疏度、MLP激活剪枝和量化位宽。通过组相对策略优化(GRPO)训练,在固定token序列上采样不同计算调度,并权衡质量与预算。实验表明,相比统一预算分配,SOL在MMLU上可提升高达7.3%,并发现更好的质量-效率帕累托前沿。论文推理效率动态预算分配强化学习量化/剪枝LLM推理优化推荐理由:该研究为推理效率优化提供了新思路,动态预算分配结合强化学习,可能在不牺牲质量的前提下显著降低计算成本。对部署大规模语言模型的企业和研究者有重要参考价值。原文
19:11arXiv: OpenAI@Sietse Schelpe70°本预印本实证分析了检索增强生成管道中字节级块去重的效果,涵盖三种不同模式:干净学术检索(22.2M BeIR段落字节减少0.16%)、构造企业模式(24.03%减少)和多轮对话AI(80.34%减少)。通过跨供应商5评委校准面板评估,使用Gemini 2.5 Flash、Claude Sonnet 4.6、Llama 3.3 70B和GPT-5.1四款API,应用五类别人工噪声去除协议,证明字节级去重引入了零可测量质量回归。所有API在干净和高冗余RAG模式下均通过严格的<5% Wilson 95%上限MAT阈值。该工作表明,无需牺牲评估级模型质量即可实现大量推理计算节省。论文RAG去重/优化推理效率质量评估开源/仓库推荐理由:该研究为RAG系统提供了一种确定性、无质量折损的优化方法,直接减少了推理计算成本,对实际部署具有明确指导意义。原文
19:11arXiv: OpenAI@Songtao Wei, Yi Li, Zhikai Li, Xu Hu, Yuede Ji, Guanpeng Li, Feng Chen, Carl Yang, Zhichun Guo, Bingzhe LiLEAD提出了一种在线自适应推理压缩方法,解决大推理模型(如OpenAI o1、DeepSeek-R1)在CoT过程中过度冗长的问题。传统强化学习方法使用静态权重和全局长度约束,难以平衡正确性与效率,且无法适应不同问题的推理预算需求。LEAD通过Potential-Scaled Instability动态校准每步的正确-效率权衡,并基于模型自身正确rollouts在线估计每个问题的目标长度,然后应用对称效率奖励——既惩罚过度思考也惩罚过度压缩。在五个数学推理基准上,LEAD取得了最高的准确率和准确-效率得分,同时生成比基础模型更短的输出。论文推理模型推理效率自适应压缩强化学习Chain-of-Thought5 个信源在谈推荐理由:该方法为推理模型部署中的计算效率问题提供了自适应解决方案,对于实际应用中降低推理成本和延迟具有重要价值,特别是在数学推理等需要长链推理的场景。原文