10:36arXiv: DeepSeek@Hui Zang, Pengfei Xia, Hong Liu, Jiajia Chu, Tuo Hao, Minghao Chen, Rui Zhang, Ziyang Zhang精选Mixture-of-Experts (MoE)架构通过稀疏激活扩展模型规模,但数据移动瓶颈导致推理效率低下。两个关键问题:低贡献专家带来几乎均等的内存与传输成本(成本收益比低),以及多设备部署中受最慢设备限制。CAEE框架利用轻量级成本模型估算硬件开销,选择性剪枝低重要性高成本专家,并通过低开销补偿机制避免额外数据传输。在DeepSeek-R1(671B参数)上的评估显示,CAEE将端到端推理延迟降低8%-18%(专家卸载与设备内执行),模型准确率下降小于1%。论文CAEEMoEDeepSeek-R1推理优化多设备推荐理由:CAEE框架能降低MoE模型推理延迟8%-18%,且准确率几乎不受影响。DeepSeek-R1用户可重点关注。原文
11:01arXiv cs.LG@Inesh Chakrabarti, David Limpus, Aditi Ghai Rana, Bowen Bao, Spandan Tiwari, Thiago Crepaldi, Ashish Sirasao论文提出UltraQuant,一种针对智能体工作负载的4位KV缓存压缩方法,基于TurboQuant旋转和码书量化。在长上下文多轮任务中,UltraQuant在缓存压力大的后期轮次将P50首令牌延迟降低3.47倍,全轮次平均降低2.3倍。相比FP8 KV缓存基线,输出吞吐量提升1.63倍。设计包括非对称K/V处理、Walsh-Hadamard旋转及AMD GPU专用优化。论文UltraQuantFP4KV缓存AMD GPU推理优化推荐理由:长上下文智能体推理慢?UltraQuant把4位KV缓存做到实用,延迟降3倍多,吞吐涨1.6倍,值得看看。原文
09:06arXiv cs.AI@Luoyuan Zhang这篇论文指出当前 AI 智能体在处理相同文档时,每个智能体都会重复执行最耗计算的前缀填充(prefill)步骤,重建相同的键值(KV)缓存,造成巨大浪费。作者提出一个简单方案:让发布者预计算文档的 KV 缓存,其他智能体付费加载后跳过 prefill。实验表明,在 Qwen3-4B 模型上,复用比从头 prefill 节省 9-50 倍计算量,且输出 token 完全一致。但 KV 缓存体积大、难以压缩,直接传输成本高;作者建议在服务端托管(类似 prompt-caching),消除传输开销。以一个热门 3774 token 文档被 80M 智能体访问为例,复用计算成本仅约 3 万美元,而重新 prefill 需 150 万美元,节省 49.7 倍。论文还提出了智能体原生 prefill CDN 的框架,并指出无损 KV 压缩和跨方支付层是待解决的关键问题。论文KV缓存推理优化智能体预填充成本节省推荐理由:这篇论文直击 AI 智能体重复计算同一文档的浪费痛点,做 LLM 推理优化或智能体基础设施的团队值得关注——它提出的 KV 缓存共享方案可能大幅降低推理成本,且已有实测数据支撑。原文
11:30arXiv cs.AI@Cheng-Yu Yang, Shao-Yuan Lo, Yu-Lun Liu精选视觉语言模型(VLM)将图像投影为数百到数千个视觉令牌,导致解码器推理成本高昂。现有方法通常采用“排序并移除”范式,永久丢弃低分令牌。但研究发现,视觉令牌的重要性会随解码器深度变化,早期低分令牌可能在后续层变得重要。为此,研究者提出Reroute,一种无需训练的插件,将移除改为可恢复路由:被延迟的令牌在后续阶段重新进入候选池。该方法在FastV、PDrop等方案上,在LLaVA-1.5和Qwen骨干上,在激进令牌缩减下提升了接地性能,同时保持VQA性能。这表明VLM令牌缩减应视为可恢复路由,而非不可逆修剪。代码已开源。论文视觉语言模型令牌缩减可恢复路由推理优化开源/仓库推荐理由:VLM推理成本高是实际部署的痛点,Reroute用零训练代价解决了令牌缩减中信息丢失的问题,做多模态模型优化或部署的团队可以直接集成到现有方案中,值得一试。原文
09:08arXiv: DeepSeek@Wenxin Wang, Yule Hou, Yu Ji, Peng Qu, Youhui Zhang精选72°本地部署大型混合专家模型(MoE)在服务质量上远不及云端环境,即使低并发场景也存在四大差距:依赖降级模型、无法满足长预填充的30秒TTFT、解码吞吐量低于20 tokens/s、混合负载下并发能力差。本文提出CPU-GPU混合系统,通过流式加载预填充(SLP)将预填充吞吐提升至1200 tokens/s,支持32K提示词在30秒内完成;分布式SLP(DSLP)结合SmallEP专家并行,在双RTX 5090上达到1800 tokens/s和45K提示词;以及零拷贝共享权重的节点内预填充-解码分离、AVX-512优化的FP8 GEMV内核等技术。该系统在消费级CPU-GPU平台上实现了旗舰MoE模型的云级服务质量,无需数据中心基础设施即可获得高质量、低成本的本地推理。论文MoE模型CPU-GPU混合推理优化本地部署SLO推荐理由:本地跑MoE大模型终于能追上云端的服务质量了——做本地部署的开发者可以直接参考这套CPU-GPU混合方案,不用再忍受降级模型和低吞吐。原文
10:59arXiv cs.AI@Hetvi Shastri, Pragya Sharma, Walid A. Hanafy, David Irwin, Mani Srivastava, Prashant Shenoy精选现有大模型服务系统将每个定制任务部署为独立模型实例,导致骨干模型重复部署、加速器内存浪费,且无法分摊批处理和加载成本。FMplex 提出一种新范式,将大模型骨干视为虚拟化基础,为每个任务提供逻辑上私有的虚拟大模型(vFM),实际共享同一物理骨干。该方案支持任务独立扩展、生命周期和隔离性,并设计了批感知公平队列调度器,实现任务间和任务内的批处理。在 7 个骨干模型(16 个变体)和 92 个下游任务上,FMplex 相比空间分区降低延迟 80%,相比尽力共置降低 33.3%,集群规模下可承载多达 6 倍的任务数。论文模型服务虚拟化批处理调度推理优化FMplex推荐理由:做模型服务系统或推理优化的团队,FMplex 的虚拟化思路能直接帮你省显存、降延迟,建议研究其调度和共享机制。原文
12:00arXiv cs.LG@Zelin Li, Caiwen Ding精选72°研究发现,大语言模型的零阶(ZO)微调本质上是推理密集型负载,而非传统训练。现有实现将ZO算法运行在训练循环中,导致工作负载与运行时的不匹配。研究者通过将ZO微调的重复评分阶段部署在推理运行时(如vLLM)上,在OPT-13B模型上实现了8.13倍加速,且精度几乎无损。该方法在多个模型规模下获得2.34-7.72倍加速,并支持MeZO风格的高秩分解实验。这项工作为将轻量级适配作为推理类负载调度提供了实用路径。论文零阶优化微调推理优化vLLM大语言模型推荐理由:做LLM微调优化的团队终于可以省下GPU时间了——把ZO微调当推理跑,vLLM直接提速8倍,建议做低成本微调的人点开看看实现细节。原文
11:54arXiv: DeepSeek@Hanjiang Wu, Abhimanyu Rajeshkumar Bambhaniya, Sarbartha Banerjee, Tuhin Khare, Sudarshan Srinivasan, Suvinay Subramanian, Souvik Kundu, Madhu Kumar, Midhilesh Elavazhagan, William Won, Amir Yazdanbakhsh, Tushar Krishna这篇论文系统研究了混合专家(MoE)大模型推理中的多级解耦策略,从分块预填充聚合、预填充-解码解耦到最新的算子级 Attention-FFN 解耦(AFD)。AFD 将注意力计算和 MoE-FFN 执行分别部署在不同 GPU 组上,以应对 MoE 模型中内存受限的注意力、计算密集的专家 FFN 以及 MoE 路由通信带来的异构资源需求。通过结合设备级内核测量和高保真网络模拟的框架,论文在真实工作负载下评估了各级解耦的收益与局限。结果表明,在严格的 TTFT/TPOT 服务等级目标下,AFD 在 DeepSeek-V3.2 上可维持约 4000 tokens/s 的系统吞吐量,而传统非 AFD 部署无法满足要求。论文还给出了根据工作负载和模型架构划分注意力与 FFN 的实用建议,为当前机架/集群级部署及未来解耦 AI 基础设施提供了设计原则。论文MoE推理优化解耦架构Attention-FFNDeepSeek-V3.2推荐理由:MoE 模型推理的瓶颈终于被系统性地拆解了——Attention-FFN 解耦让吞吐量提升到传统方案无法企及的水平,做大规模 MoE 推理部署的团队可以直接参考论文中的分区策略来优化集群。原文
12:13arXiv: DeepSeek@Xiongwei Zhu, Xiaojian Liao, Tianyang Jiang, Yusen Zhang, Liang Wang, Limin Xiao精选细粒度混合专家(MoE)模型在推理时只激活部分专家,但内存受限场景下只能缓存少量专家,未缓存的专家需从慢速外部存储获取,导致频繁换入换出和I/O开销。ReMoE提出一种路由器微调框架,通过偏向近期选中的专家来产生时间上稳定的路由,从而提升专家复用率,减少存储访问。实验表明,在DeepSeek和Qwen模型上,ReMoE将专家复用率提升26%,同时保持下游任务性能。在vLLM GPU-CPU专家卸载场景下,输出吞吐量提升8.4%;在Jetson Orin NX上使用llama.cpp时,TPOT降低43.6-49.8%,解码速度提升1.77-1.99倍。代码和模型已开源。论文MoE模型推理优化路由器微调专家复用边缘部署推荐理由:ReMoE解决了内存受限设备上MoE模型推理的I/O瓶颈,做边缘部署或大模型推理优化的开发者可以直接试,开源代码让复现门槛很低。原文
11:24arXiv cs.LG@Lizhang Chen, Jonathan Li, Chen Liang, Ni Lao, Qiang Liu精选研究者提出了一种无需训练的循环Transformer方法,通过在推理时对冻结的预训练模型进行轻量级循环包装,无需微调或架构改动即可提升性能。该方法将Transformer块视为ODE的欧拉步,通过阻尼子步替代大步更新,避免了简单重复块导致的性能下降。在7个模型家族(包括密集、稀疏MoE和MLA+MoE)上验证有效,如Qwen3-4B-Instruct在MMLU-Pro上提升2.64个百分点,Qwen3-30B-A3B-Instruct在CommonsenseQA上提升1.14个百分点。该方法为利用现有模型提升推理能力提供了低成本方案。论文循环Transformer推理优化无需训练预训练模型ODE视角推荐理由:这项研究让使用冻结模型的团队无需重新训练就能提升推理性能,做模型部署或推理优化的开发者值得关注,可以直接在现有模型上尝试。原文
11:43arXiv cs.AI@Xinpeng Dong, Min Zhang, Kairong Han, Xu Tan, Fei Wu, Kun Kuang精选多模态大语言模型(MLLMs)在融合视觉与文本信息方面取得显著进展,但现有方法存在两个关键问题:视觉信息被当作普通文本token处理,削弱了其独特贡献;随着生成长度增加,模型对视觉信息的依赖逐渐减弱,导致视觉-语言对齐恶化。为此,研究者提出Vision Inference Former(VIF),一个轻量级架构模块,在推理解码阶段持续注入视觉语义,确保生成内容与视觉语义一致。在14个基准任务上的实验表明,VIF能在不同架构上稳定提升性能,且额外开销极小。代码已开源。论文多模态大模型视觉一致性轻量模块推理优化开源/仓库推荐理由:多模态模型开发者常遇到生成内容偏离图像的问题,VIF用极简模块解决了视觉一致性衰减的痛点,想提升MLLM可靠性的团队可以直接试。原文
11:41arXiv cs.AI@Tej Sanibh Ranade精选72°TRACE 是一种无需训练的推理时幻觉纠正算法,它通过分析大模型内部各层的候选轨迹,动态选择最合适的纠正方式(如标量反转、早期状态恢复或候选空间修正),而不是固定使用单一干预形式。实验覆盖 15 个模型、8 个模型家族和 3 个事实性基准,所有评估指标均有提升,平均 MC1 提高 12.26 点,MC2 提高 8.65 点,最高提升分别达 47.20 和 43.38 点。该方法无需标签、检索、预训练、微调或逐模型校准。论文大模型幻觉纠正推理优化无需训练TRACE推荐理由:TRACE 解决了大模型幻觉纠正中“一刀切”干预的缺陷,做 LLM 推理优化或事实性研究的开发者可以直接在现有模型上试用,无需额外训练成本。原文
10:18arXiv cs.AI@Mengtian Yang, Zhekun Zhang, Mingheng Wu, Jianwen Yan, Hanshi Sun, Li-wen Chang精选72°Charon 是一个用于大规模 LLM 训练和推理性能预测的统一、模块化、细粒度模拟器。它解决了因并行策略、系统优化和硬件配置复杂而难以优化部署的问题。实验表明,Charon 在不同模型和配置下预测误差始终低于 5.35%,在大型 GPU 集群训练场景下误差低于 3.74%。在实际推理部署中,Charon 发现了一种配置,将系统吞吐量提升至超过工程调优的基线,展示了其实际价值。论文LLM训练推理优化性能模拟并行策略Charon推荐理由:做 LLM 部署优化的工程师终于有了一个高精度模拟器来验证“如果…会怎样”的假设,Charon 能帮你快速找到最佳配置,避免盲目调参,建议直接看论文实验部分。原文
11:06arXiv cs.AI@Renning Pang, Tian Lan, Leyuan Liu, Xiaoming Huang, Piao Tong, Xiaosong Zhang精选多轮对话系统在处理长距离依赖时容易丢失关键信息,导致回答不一致。现有方法要么依赖高延迟的外部记忆,要么通过迭代摘要丢失细节。本文提出Self-Recall Thinking (SRT)框架,让模型在推理时自主识别并召回历史有用轮次,生成更一致的回复。SRT包含依赖构建、能力初始化和推理优化三个阶段,通过可验证奖励优化召回和推理。实验表明,SRT在多个数据集上F1提升4.7%,端到端延迟降低14.7%,在推理延迟和准确性间取得更好平衡。论文多轮对话一致性长距离依赖推理优化Self-Recall Thinking推荐理由:做对话系统或客服机器人的团队,SRT解决了长对话中信息稀疏和一致性差的痛点,无需外部模块就能提升效果,值得在长上下文场景中试试。原文
13:26arXiv cs.LG@Victor Norgren精选70°传统 Transformer 推理引擎在流式工作负载中,每次查询都需要 O(n) 的预填充成本,随着上下文增长成本急剧上升。本文提出基于状态会话的数据驱动计算模型,通过持久化 KV 缓存增量更新,将预填充移出关键路径,使查询延迟降至 O(|q|),与累积上下文大小无关。Flash Queries 机制利用数据到达间的空闲 GPU 周期预评估注册问题并缓存答案,这在无状态引擎中无法实现。多租户连续批处理调度器支持数十个状态会话在单 GPU 上共存,同时保持完整二次自注意力。在流式市场数据基准测试中,参考实现相比 vLLM、SGLang、TensorRT-LLM、llama.cpp 等传统引擎实现最高 5.9 倍加速,且查询延迟不随上下文增长而增加。论文推理优化流式推理KV缓存状态会话Flash Queries推荐理由:流式推理场景(如实时数据监控、金融交易、对话系统)的开发者终于有了降低延迟的可行方案——把预填充移出关键路径,查询延迟与上下文大小解耦。做高吞吐低延迟推理服务的团队值得关注这个新范式。原文