KV-cache

§ 01综述

KV-cache 技术：从推理瓶颈到系统级优化的核心战场

KV-cache（键值缓存）是当前大模型推理优化的关键技术。它通过缓存 Transformer 中注意力计算的键值对，避免重复计算，从而显著降低延迟。但随着模型序列长度和并发请求增加，KV-cache 的内存占用成为瓶颈，促使业界在算法和系统层面进行创新。

近期主要进展：

小米 MiMo 模型通过 Hybrid SWA 架构和推理系统重构实现推理成本大幅下降

小米 MiMo V2.5 推理系统全链路优化公开，最高降价 99% 报道，小米的 MiMo-V2.5 版本通过引入混合滑动窗口注意力（Hybrid SWA）和全链路优化（包括 KV-cache 压缩、动态共享等），将推理成本降低 99%。这体现了 KV-cache 优化从单一算法走向系统级协同的趋势。

DeepSeek 通过算法创新突破硬件限制，受益于 KV-cache 优化

DeepSeek：美国最后悔没封杀的中国AI公司指出，DeepSeek 依靠 Multi-head Latent Attention（MLA）等算法创新，极大压缩 KV-cache 大小，使得现有 GPU 可处理更长序列，降低了硬件门槛。

地平线开源机器人小脑大模型，关注实时推理中的 KV-cache 效率

地平线开源4亿参数机器人小脑大模型 HoloMotion-1 报道，该模型面向机器人实时控制场景，其推理系统优化必然涉及 KV-cache 的轻量化处理，以适应边缘设备有限的内存。

当前焦点 / 未来观察点：

当前 KV-cache 优化的核心矛盾是：如何在保持模型质量的同时，尽可能压缩缓存大小以支持更长上下文和更高并发。未来值得关注的方向包括：动态 KV-cache 管理策略（如淘汰、量化）、稀疏注意力与 KV-cache 的结合，以及面向特定硬件（如定制芯片）的 KV-cache 硬件加速单元。

§ 02相关报道05 条在档

§ 03邻近话题