推理优化 · AI 话题观测

§ 01综述

推理优化是指通过算法、系统架构和硬件协同设计，降低大模型在推理阶段的计算延迟、内存开销和成本，同时保持或提升模型输出质量的技术领域，近年来随着大模型规模化部署成为研究热点。当前推理优化呈现两大方向：一是从模型结构出发减少冗余计算，二是在系统层面实现资源灵活共享。

推理优化近期进展

共享预计算 KV 缓存：论文《Can I Buy Your KV Cache?》提出在用户间共享预先计算的键值（KV）缓存，允许第三方提供“缓存即服务”，从而减少重复计算，提升推理吞吐量。原文标题

去除 KV 投影层：另一项工作证明 Transformer 中的 Key 和 Value 投影可被删除，配合特定训练策略能减少约 50% 的 KV 缓存占用，同时保持模型困惑度接近不变。原文标题

CPU-GPU 混合推理：DeepSeek 提出 CPU-GPU 混合设计，利用 CPU 大容量内存存储 MoE 层参数，GPU 处理活跃专家，在本地部署中达到云级服务级别目标（SLO），以极低延迟运行高参数模型。原文标题

端到端性能夺冠：Step 3.7 Flash 模型在 AA 排行榜的推理速度、成本和端到端性能三项指标中均登顶，其优化涉及稀疏注意力与高效计算内核。原文标题

当前焦点与观察点

推理优化的核心矛盾在于“模型能力持续增长”与“实际部署成本约束”之间的张力。KV 缓存的共享与压缩成为近期最活跃的探索方向：无论是买卖缓存令牌还是削去投影层，目标都是用更少的内存为更多用户服务。另一方面，混合架构（如 CPU-GPU、稀疏注意力）正从学术原型走向工业落地，MiniMax-M3 的 1M 上下文和小米 MiMo 的 Hybrid SWA 均体现了这一趋势。值得注意的是，不同优化方法之间可能存在协同效应，例如稀疏注意力可进一步降低已压缩 KV 缓存的访问开销。未来，随着推理经济规模的扩大，系统级优化（如虚拟化共享、模型路由）与算法级优化（如令牌剪枝）的融合将成为关键。

§ 02相关报道10 条在档

§ 03邻近话题