№推理优化·general
推理优化
别名
- 首次出现
- 2026-05-22
- 最近出现
- 2026-06-13
- 累计提及
- 40
§ 01综述
推理优化是指通过算法、系统架构和硬件协同设计,降低大模型在推理阶段的计算延迟、内存开销和成本,同时保持或提升模型输出质量的技术领域,近年来随着大模型规模化部署成为研究热点。当前推理优化呈现两大方向:一是从模型结构出发减少冗余计算,二是在系统层面实现资源灵活共享。
推理优化近期进展
共享预计算 KV 缓存:论文《Can I Buy Your KV Cache?》提出在用户间共享预先计算的键值(KV)缓存,允许第三方提供“缓存即服务”,从而减少重复计算,提升推理吞吐量。原文标题
去除 KV 投影层:另一项工作证明 Transformer 中的 Key 和 Value 投影可被删除,配合特定训练策略能减少约 50% 的 KV 缓存占用,同时保持模型困惑度接近不变。原文标题
CPU-GPU 混合推理:DeepSeek 提出 CPU-GPU 混合设计,利用 CPU 大容量内存存储 MoE 层参数,GPU 处理活跃专家,在本地部署中达到云级服务级别目标(SLO),以极低延迟运行高参数模型。原文标题
端到端性能夺冠:Step 3.7 Flash 模型在 AA 排行榜的推理速度、成本和端到端性能三项指标中均登顶,其优化涉及稀疏注意力与高效计算内核。原文标题
当前焦点与观察点
推理优化的核心矛盾在于“模型能力持续增长”与“实际部署成本约束”之间的张力。KV 缓存的共享与压缩成为近期最活跃的探索方向:无论是买卖缓存令牌还是削去投影层,目标都是用更少的内存为更多用户服务。另一方面,混合架构(如 CPU-GPU、稀疏注意力)正从学术原型走向工业落地,MiniMax-M3 的 1M 上下文和小米 MiMo 的 Hybrid SWA 均体现了这一趋势。值得注意的是,不同优化方法之间可能存在协同效应,例如稀疏注意力可进一步降低已压缩 KV 缓存的访问开销。未来,随着推理经济规模的扩大,系统级优化(如虚拟化共享、模型路由)与算法级优化(如令牌剪枝)的融合将成为关键。