推理优化·general

推理优化

别名
首次出现
2026-05-22
最近出现
2026-06-13
累计提及
40
§ 01综述

推理优化是指通过算法、系统架构和硬件协同设计,降低大模型在推理阶段的计算延迟、内存开销和成本,同时保持或提升模型输出质量的技术领域,近年来随着大模型规模化部署成为研究热点。当前推理优化呈现两大方向:一是从模型结构出发减少冗余计算,二是在系统层面实现资源灵活共享。

推理优化近期进展

  • 共享预计算 KV 缓存:论文《Can I Buy Your KV Cache?》提出在用户间共享预先计算的键值(KV)缓存,允许第三方提供“缓存即服务”,从而减少重复计算,提升推理吞吐量。原文标题
  • 去除 KV 投影层:另一项工作证明 Transformer 中的 Key 和 Value 投影可被删除,配合特定训练策略能减少约 50% 的 KV 缓存占用,同时保持模型困惑度接近不变。原文标题
  • CPU-GPU 混合推理:DeepSeek 提出 CPU-GPU 混合设计,利用 CPU 大容量内存存储 MoE 层参数,GPU 处理活跃专家,在本地部署中达到云级服务级别目标(SLO),以极低延迟运行高参数模型。原文标题
  • 端到端性能夺冠:Step 3.7 Flash 模型在 AA 排行榜的推理速度、成本和端到端性能三项指标中均登顶,其优化涉及稀疏注意力与高效计算内核。原文标题
  • 当前焦点与观察点

    推理优化的核心矛盾在于“模型能力持续增长”与“实际部署成本约束”之间的张力。KV 缓存的共享与压缩成为近期最活跃的探索方向:无论是买卖缓存令牌还是削去投影层,目标都是用更少的内存为更多用户服务。另一方面,混合架构(如 CPU-GPU、稀疏注意力)正从学术原型走向工业落地,MiniMax-M3 的 1M 上下文和小米 MiMo 的 Hybrid SWA 均体现了这一趋势。值得注意的是,不同优化方法之间可能存在协同效应,例如稀疏注意力可进一步降低已压缩 KV 缓存的访问开销。未来,随着推理经济规模的扩大,系统级优化(如虚拟化共享、模型路由)与算法级优化(如令牌剪枝)的融合将成为关键。

    § 02相关报道10 条在档
    1. 01
      Dan Fu在斯坦福CS336客座讲座:KV缓存、Megakernels与Parcae缩放定律
      Together AI
    2. 02
      Inferoa:基于vLLM的社区智能体框架,优化推理经济
      vLLM
    3. 03
      Can I Buy Your KV Cache? 论文提出预计算 KV 缓存共享方案
      arXiv cs.AI
    4. 04
      Reroute:可恢复视觉令牌路由,提升VLM性能
      arXiv cs.AI
    5. 05
      Transformer 可省去 Key 和 Value 投影?新论文砍掉 50% KV 缓存
      rohanpaul_ai
    6. 06
      CPU-GPU混合设计实现本地MoE推理云级SLO
      arXiv: DeepSeek
    7. 07
      FMplex:为大模型部署提供虚拟化共享方案
      arXiv cs.AI
    8. 08
      OpenRouter:决策点切换模型可减少自偏好偏差
      OpenRouter
    9. 09
      Step 3.7 Flash 登顶 AA 速度/成本/端到端性能榜
      Pandaily
    10. 10
      MiniMax-M3 模型:1M 上下文+原生多模态+稀疏注意力
      Together AI
    § 03邻近话题

    本页综述由 AITOP 基于公开报道整理。原报道版权归各自来源所有。

    /topic/%E6%8E%A8%E7%90%86%E4%BC%98%E5%8C%96