Cache

§ 01综述

Cache（缓存）在大型语言模型推理中通常指 Key-Value 缓存（KV-cache），它存储已计算好的注意力键值对，避免每个生成步骤重复计算，是影响吞吐量和延迟的核心机制。随着 LLM 部署规模扩大，如何高效管理 KV-cache 已成为推理优化的重要方向。

Cache 近期进展

DeepSeek 将投机解码原生集成到 vLLM，通过预测和验证 token 序列来更高效利用 KV-cache，显著提升推理吞吐量。DeepSeek DSpark 投机解码原生集成 vLLM，性能提升显著

一项研究提出负载感知的 prefill deflection 策略，在分离式 LLM 服务中将 P95 首 token 时间（TTFT）降低 81%，通过动态调整 KV-cache 预填充负载。Load-aware prefill deflection reduces P95 TTFT by 81% in disaggregated LLM serving

Manus AI 强调 KV-cache 命中率是生产级 AI 代理最重要的指标，直接影响推理成本和延迟。Manus AI：KV-cache命中率是生产级AI代理最重要的指标

CrossPool 引擎提出分离 KV-cache 和权重，对冷 MoE 模型进行多 LLM 服务，通过冷热分离减少缓存浪费。CrossPool：分离 KV-Cache 和权重的冷 MoE 模型多 LLM 服务引擎

当前焦点与观察点

KV-cache 优化正从多个方向推进：提高命中率以节省计算和内存，通过冷热分离和负载均衡提升整体利用率，同时投机解码等新技术也在间接改善缓存效率。硬件层面，华为等厂商通过缓存感知的推理加速方案将长序列吞吐率提升 372%。不过，KV-cache 大小随序列长度线性增长，给显存带来压力，如何在不牺牲性能的前提下压缩缓存仍是持续的研究热点。总体而言，Cache 管理已成为 LLM 规模化部署中的关键杠杆，其优化潜力尚未完全释放。

§ 02相关报道10 条在档

§ 03邻近话题