全部 AI 动态 · AI 热点

6月30日

10:36

arXiv: DeepSeek@Hui Zang, Pengfei Xia, Hong Liu, Jiajia Chu, Tuo Hao, Minghao Chen, Rui Zhang, Ziyang Zhang

精选

Mixture-of-Experts (MoE)架构通过稀疏激活扩展模型规模，但数据移动瓶颈导致推理效率低下。两个关键问题：低贡献专家带来几乎均等的内存与传输成本（成本收益比低），以及多设备部署中受最慢设备限制。CAEE框架利用轻量级成本模型估算硬件开销，选择性剪枝低重要性高成本专家，并通过低开销补偿机制避免额外数据传输。在DeepSeek-R1（671B参数）上的评估显示，CAEE将端到端推理延迟降低8%-18%（专家卸载与设备内执行），模型准确率下降小于1%。

论文 CAEE MoE DeepSeek-R1 推理优化多设备

推荐理由：CAEE框架能降低MoE模型推理延迟8%-18%，且准确率几乎不受影响。DeepSeek-R1用户可重点关注。

原文

6月19日

11:01

arXiv cs.LG@Inesh Chakrabarti, David Limpus, Aditi Ghai Rana, Bowen Bao, Spandan Tiwari, Thiago Crepaldi, Ashish Sirasao

论文提出UltraQuant，一种针对智能体工作负载的4位KV缓存压缩方法，基于TurboQuant旋转和码书量化。在长上下文多轮任务中，UltraQuant在缓存压力大的后期轮次将P50首令牌延迟降低3.47倍，全轮次平均降低2.3倍。相比FP8 KV缓存基线，输出吞吐量提升1.63倍。设计包括非对称K/V处理、Walsh-Hadamard旋转及AMD GPU专用优化。

论文 UltraQuant FP4 KV缓存 AMD GPU 推理优化

推荐理由：长上下文智能体推理慢？UltraQuant把4位KV缓存做到实用，延迟降3倍多，吞吐涨1.6倍，值得看看。

原文

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

09:06

arXiv cs.AI@Luoyuan Zhang

这篇论文指出当前 AI 智能体在处理相同文档时，每个智能体都会重复执行最耗计算的前缀填充（prefill）步骤，重建相同的键值（KV）缓存，造成巨大浪费。作者提出一个简单方案：让发布者预计算文档的 KV 缓存，其他智能体付费加载后跳过 prefill。实验表明，在 Qwen3-4B 模型上，复用比从头 prefill 节省 9-50 倍计算量，且输出 token 完全一致。但 KV 缓存体积大、难以压缩，直接传输成本高；作者建议在服务端托管（类似 prompt-caching），消除传输开销。以一个热门 3774 token 文档被 80M 智能体访问为例，复用计算成本仅约 3 万美元，而重新 prefill 需 150 万美元，节省 49.7 倍。论文还提出了智能体原生 prefill CDN 的框架，并指出无损 KV 压缩和跨方支付层是待解决的关键问题。

论文 KV缓存推理优化智能体预填充成本节省

推荐理由：这篇论文直击 AI 智能体重复计算同一文档的浪费痛点，做 LLM 推理优化或智能体基础设施的团队值得关注——它提出的 KV 缓存共享方案可能大幅降低推理成本，且已有实测数据支撑。

原文

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

11:30

arXiv cs.AI@Cheng-Yu Yang, Shao-Yuan Lo, Yu-Lun Liu

精选

视觉语言模型（VLM）将图像投影为数百到数千个视觉令牌，导致解码器推理成本高昂。现有方法通常采用“排序并移除”范式，永久丢弃低分令牌。但研究发现，视觉令牌的重要性会随解码器深度变化，早期低分令牌可能在后续层变得重要。为此，研究者提出Reroute，一种无需训练的插件，将移除改为可恢复路由：被延迟的令牌在后续阶段重新进入候选池。该方法在FastV、PDrop等方案上，在LLaVA-1.5和Qwen骨干上，在激进令牌缩减下提升了接地性能，同时保持VQA性能。这表明VLM令牌缩减应视为可恢复路由，而非不可逆修剪。代码已开源。

论文视觉语言模型令牌缩减可恢复路由推理优化开源/仓库

推荐理由：VLM推理成本高是实际部署的痛点，Reroute用零训练代价解决了令牌缩减中信息丢失的问题，做多模态模型优化或部署的团队可以直接集成到现有方案中，值得一试。

原文

6月10日

09:08

arXiv: DeepSeek@Wenxin Wang, Yule Hou, Yu Ji, Peng Qu, Youhui Zhang

精选72°

本地部署大型混合专家模型（MoE）在服务质量上远不及云端环境，即使低并发场景也存在四大差距：依赖降级模型、无法满足长预填充的30秒TTFT、解码吞吐量低于20 tokens/s、混合负载下并发能力差。本文提出CPU-GPU混合系统，通过流式加载预填充（SLP）将预填充吞吐提升至1200 tokens/s，支持32K提示词在30秒内完成；分布式SLP（DSLP）结合SmallEP专家并行，在双RTX 5090上达到1800 tokens/s和45K提示词；以及零拷贝共享权重的节点内预填充-解码分离、AVX-512优化的FP8 GEMV内核等技术。该系统在消费级CPU-GPU平台上实现了旗舰MoE模型的云级服务质量，无需数据中心基础设施即可获得高质量、低成本的本地推理。

论文 MoE模型 CPU-GPU混合推理优化本地部署 SLO

推荐理由：本地跑MoE大模型终于能追上云端的服务质量了——做本地部署的开发者可以直接参考这套CPU-GPU混合方案，不用再忍受降级模型和低吞吐。

原文

6月9日

10:59

arXiv cs.AI@Hetvi Shastri, Pragya Sharma, Walid A. Hanafy, David Irwin, Mani Srivastava, Prashant Shenoy

精选

现有大模型服务系统将每个定制任务部署为独立模型实例，导致骨干模型重复部署、加速器内存浪费，且无法分摊批处理和加载成本。FMplex 提出一种新范式，将大模型骨干视为虚拟化基础，为每个任务提供逻辑上私有的虚拟大模型（vFM），实际共享同一物理骨干。该方案支持任务独立扩展、生命周期和隔离性，并设计了批感知公平队列调度器，实现任务间和任务内的批处理。在 7 个骨干模型（16 个变体）和 92 个下游任务上，FMplex 相比空间分区降低延迟 80%，相比尽力共置降低 33.3%，集群规模下可承载多达 6 倍的任务数。

论文模型服务虚拟化批处理调度推理优化 FMplex

推荐理由：做模型服务系统或推理优化的团队，FMplex 的虚拟化思路能直接帮你省显存、降延迟，建议研究其调度和共享机制。

原文

5月28日

12:00

arXiv cs.LG@Zelin Li, Caiwen Ding

精选72°

研究发现，大语言模型的零阶（ZO）微调本质上是推理密集型负载，而非传统训练。现有实现将ZO算法运行在训练循环中，导致工作负载与运行时的不匹配。研究者通过将ZO微调的重复评分阶段部署在推理运行时（如vLLM）上，在OPT-13B模型上实现了8.13倍加速，且精度几乎无损。该方法在多个模型规模下获得2.34-7.72倍加速，并支持MeZO风格的高秩分解实验。这项工作为将轻量级适配作为推理类负载调度提供了实用路径。

论文零阶优化微调推理优化 vLLM 大语言模型

推荐理由：做LLM微调优化的团队终于可以省下GPU时间了——把ZO微调当推理跑，vLLM直接提速8倍，建议做低成本微调的人点开看看实现细节。

原文

11:54

arXiv: DeepSeek@Hanjiang Wu, Abhimanyu Rajeshkumar Bambhaniya, Sarbartha Banerjee, Tuhin Khare, Sudarshan Srinivasan, Suvinay Subramanian, Souvik Kundu, Madhu Kumar, Midhilesh Elavazhagan, William Won, Amir Yazdanbakhsh, Tushar Krishna

这篇论文系统研究了混合专家（MoE）大模型推理中的多级解耦策略，从分块预填充聚合、预填充-解码解耦到最新的算子级 Attention-FFN 解耦（AFD）。AFD 将注意力计算和 MoE-FFN 执行分别部署在不同 GPU 组上，以应对 MoE 模型中内存受限的注意力、计算密集的专家 FFN 以及 MoE 路由通信带来的异构资源需求。通过结合设备级内核测量和高保真网络模拟的框架，论文在真实工作负载下评估了各级解耦的收益与局限。结果表明，在严格的 TTFT/TPOT 服务等级目标下，AFD 在 DeepSeek-V3.2 上可维持约 4000 tokens/s 的系统吞吐量，而传统非 AFD 部署无法满足要求。论文还给出了根据工作负载和模型架构划分注意力与 FFN 的实用建议，为当前机架/集群级部署及未来解耦 AI 基础设施提供了设计原则。

论文 MoE 推理优化解耦架构 Attention-FFN DeepSeek-V3.2

推荐理由：MoE 模型推理的瓶颈终于被系统性地拆解了——Attention-FFN 解耦让吞吐量提升到传统方案无法企及的水平，做大规模 MoE 推理部署的团队可以直接参考论文中的分区策略来优化集群。

原文

5月27日

12:13

arXiv: DeepSeek@Xiongwei Zhu, Xiaojian Liao, Tianyang Jiang, Yusen Zhang, Liang Wang, Limin Xiao

精选

细粒度混合专家（MoE）模型在推理时只激活部分专家，但内存受限场景下只能缓存少量专家，未缓存的专家需从慢速外部存储获取，导致频繁换入换出和I/O开销。ReMoE提出一种路由器微调框架，通过偏向近期选中的专家来产生时间上稳定的路由，从而提升专家复用率，减少存储访问。实验表明，在DeepSeek和Qwen模型上，ReMoE将专家复用率提升26%，同时保持下游任务性能。在vLLM GPU-CPU专家卸载场景下，输出吞吐量提升8.4%；在Jetson Orin NX上使用llama.cpp时，TPOT降低43.6-49.8%，解码速度提升1.77-1.99倍。代码和模型已开源。

论文 MoE模型推理优化路由器微调专家复用边缘部署

推荐理由：ReMoE解决了内存受限设备上MoE模型推理的I/O瓶颈，做边缘部署或大模型推理优化的开发者可以直接试，开源代码让复现门槛很低。

原文

5月25日

11:24

arXiv cs.LG@Lizhang Chen, Jonathan Li, Chen Liang, Ni Lao, Qiang Liu

精选

研究者提出了一种无需训练的循环Transformer方法，通过在推理时对冻结的预训练模型进行轻量级循环包装，无需微调或架构改动即可提升性能。该方法将Transformer块视为ODE的欧拉步，通过阻尼子步替代大步更新，避免了简单重复块导致的性能下降。在7个模型家族（包括密集、稀疏MoE和MLA+MoE）上验证有效，如Qwen3-4B-Instruct在MMLU-Pro上提升2.64个百分点，Qwen3-30B-A3B-Instruct在CommonsenseQA上提升1.14个百分点。该方法为利用现有模型提升推理能力提供了低成本方案。

论文循环Transformer 推理优化无需训练预训练模型 ODE视角

推荐理由：这项研究让使用冻结模型的团队无需重新训练就能提升推理性能，做模型部署或推理优化的开发者值得关注，可以直接在现有模型上尝试。

原文

5月19日

11:43

arXiv cs.AI@Xinpeng Dong, Min Zhang, Kairong Han, Xu Tan, Fei Wu, Kun Kuang

精选

多模态大语言模型（MLLMs）在融合视觉与文本信息方面取得显著进展，但现有方法存在两个关键问题：视觉信息被当作普通文本token处理，削弱了其独特贡献；随着生成长度增加，模型对视觉信息的依赖逐渐减弱，导致视觉-语言对齐恶化。为此，研究者提出Vision Inference Former（VIF），一个轻量级架构模块，在推理解码阶段持续注入视觉语义，确保生成内容与视觉语义一致。在14个基准任务上的实验表明，VIF能在不同架构上稳定提升性能，且额外开销极小。代码已开源。

论文多模态大模型视觉一致性轻量模块推理优化开源/仓库

推荐理由：多模态模型开发者常遇到生成内容偏离图像的问题，VIF用极简模块解决了视觉一致性衰减的痛点，想提升MLLM可靠性的团队可以直接试。

原文

11:41

arXiv cs.AI@Tej Sanibh Ranade

精选72°

TRACE 是一种无需训练的推理时幻觉纠正算法，它通过分析大模型内部各层的候选轨迹，动态选择最合适的纠正方式（如标量反转、早期状态恢复或候选空间修正），而不是固定使用单一干预形式。实验覆盖 15 个模型、8 个模型家族和 3 个事实性基准，所有评估指标均有提升，平均 MC1 提高 12.26 点，MC2 提高 8.65 点，最高提升分别达 47.20 和 43.38 点。该方法无需标签、检索、预训练、微调或逐模型校准。

论文大模型幻觉纠正推理优化无需训练 TRACE

推荐理由：TRACE 解决了大模型幻觉纠正中“一刀切”干预的缺陷，做 LLM 推理优化或事实性研究的开发者可以直接在现有模型上试用，无需额外训练成本。

原文

10:18

arXiv cs.AI@Mengtian Yang, Zhekun Zhang, Mingheng Wu, Jianwen Yan, Hanshi Sun, Li-wen Chang

精选72°

Charon 是一个用于大规模 LLM 训练和推理性能预测的统一、模块化、细粒度模拟器。它解决了因并行策略、系统优化和硬件配置复杂而难以优化部署的问题。实验表明，Charon 在不同模型和配置下预测误差始终低于 5.35%，在大型 GPU 集群训练场景下误差低于 3.74%。在实际推理部署中，Charon 发现了一种配置，将系统吞吐量提升至超过工程调优的基线，展示了其实际价值。

论文 LLM训练推理优化性能模拟并行策略 Charon

推荐理由：做 LLM 部署优化的工程师终于有了一个高精度模拟器来验证“如果…会怎样”的假设，Charon 能帮你快速找到最佳配置，避免盲目调参，建议直接看论文实验部分。

原文

5月15日

11:06

arXiv cs.AI@Renning Pang, Tian Lan, Leyuan Liu, Xiaoming Huang, Piao Tong, Xiaosong Zhang

精选

多轮对话系统在处理长距离依赖时容易丢失关键信息，导致回答不一致。现有方法要么依赖高延迟的外部记忆，要么通过迭代摘要丢失细节。本文提出Self-Recall Thinking (SRT)框架，让模型在推理时自主识别并召回历史有用轮次，生成更一致的回复。SRT包含依赖构建、能力初始化和推理优化三个阶段，通过可验证奖励优化召回和推理。实验表明，SRT在多个数据集上F1提升4.7%，端到端延迟降低14.7%，在推理延迟和准确性间取得更好平衡。

论文多轮对话一致性长距离依赖推理优化 Self-Recall Thinking

推荐理由：做对话系统或客服机器人的团队，SRT解决了长对话中信息稀疏和一致性差的痛点，无需外部模块就能提升效果，值得在长上下文场景中试试。

原文

5月14日

13:26

arXiv cs.LG@Victor Norgren

精选70°

传统 Transformer 推理引擎在流式工作负载中，每次查询都需要 O(n) 的预填充成本，随着上下文增长成本急剧上升。本文提出基于状态会话的数据驱动计算模型，通过持久化 KV 缓存增量更新，将预填充移出关键路径，使查询延迟降至 O(|q|)，与累积上下文大小无关。Flash Queries 机制利用数据到达间的空闲 GPU 周期预评估注册问题并缓存答案，这在无状态引擎中无法实现。多租户连续批处理调度器支持数十个状态会话在单 GPU 上共存，同时保持完整二次自注意力。在流式市场数据基准测试中，参考实现相比 vLLM、SGLang、TensorRT-LLM、llama.cpp 等传统引擎实现最高 5.9 倍加速，且查询延迟不随上下文增长而增加。

论文推理优化流式推理 KV缓存状态会话 Flash Queries

推荐理由：流式推理场景（如实时数据监控、金融交易、对话系统）的开发者终于有了降低延迟的可行方案——把预填充移出关键路径，查询延迟与上下文大小解耦。做高吞吐低延迟推理服务的团队值得关注这个新范式。

原文