AI产品精选72°

小米MiMo模型降价背后:推理系统重构与Hybrid SWA架构

最近大家看到小米的MiMo 模型的降价! 我今天看了一下用了120 w 差不多花了3块多钱! 正好…

精选理由

做模型推理优化的团队值得看看——小米MiMo团队用Hybrid SWA和系统级优化把成本打下来,证明了架构落地比参数更重要,建议点开了解具体实现。

AI 摘要

小米MiMo模型近期大幅降价,背后是团队对推理系统的彻底重构。他们采用Hybrid Sliding Window Attention架构,将KVCache存储压缩至全注意力的约1/7。团队针对SWA缓存难题重新设计了KVCache管理、层级缓存和prefix-cache tree,并优化了调度策略与Prefill/Decode流水线。在真实生产流量下,有效KVCache容量提升近5倍,缓存命中率稳定在93%-95%。结合MoE配置调优和多模态推理优化,最终实现了长上下文推理成本的降低,支撑了此次降价。

AI 翻译 · 中文

小米MiMo模型近期大幅降价,背后是团队对推理系统的彻底重构。他们采用Hybrid Sliding Window Attention架构,将KVCache存储压缩至全注意力的约1/7。团队针对SWA缓存难题重新设计了KVCache管理、层级缓存和prefix-cache tree,并优化了调度策略与Prefill/Decode流水线。在真实生产流量下,有效KVCache容量提升近5倍,缓存命中率稳定在93%-95%。结合MoE配置调优和多模态推理优化,最终实现了长上下文推理成本的降低,支撑了此次降价。

berryxia最近大家看到小米的MiMo 模型的降价! 我今天看了一下用了120 w 差不多花了3块多钱! 正好看到小米MiMo团队罗福莉分享的一篇技术博客。 V2.5系列刚把API价格降下来,背后其实是他们把推理系统彻底重构了一遍。 他们用的Hybrid Sliding Window Attention架构,能把KVCache存储压缩到全注意力的约1/7。 但罗福莉他们很清楚,架构优势在真实生产流量里不会自动变现。 于是团队重新设计了KVCache