小米MiMo模型降价背后：推理系统重构与Hybrid SWA架构

精选理由

做模型推理优化的团队值得看看——小米MiMo团队用Hybrid SWA和系统级优化把成本打下来，证明了架构落地比参数更重要，建议点开了解具体实现。

AI 摘要

小米MiMo模型近期大幅降价，背后是团队对推理系统的彻底重构。他们采用Hybrid Sliding Window Attention架构，将KVCache存储压缩至全注意力的约1/7。团队针对SWA缓存难题重新设计了KVCache管理、层级缓存和prefix-cache tree，并优化了调度策略与Prefill/Decode流水线。在真实生产流量下，有效KVCache容量提升近5倍，缓存命中率稳定在93%-95%。结合MoE配置调优和多模态推理优化，最终实现了长上下文推理成本的降低，支撑了此次降价。

AI 翻译 · 中文

berryxia最近大家看到小米的MiMo 模型的降价！我今天看了一下用了120 w 差不多花了3块多钱！正好看到小米MiMo团队罗福莉分享的一篇技术博客。 V2.5系列刚把API价格降下来，背后其实是他们把推理系统彻底重构了一遍。他们用的Hybrid Sliding Window Attention架构，能把KVCache存储压缩到全注意力的约1/7。但罗福莉他们很清楚，架构优势在真实生产流量里不会自动变现。于是团队重新设计了KVCache…

查看原推