00:16berryxia@berryxia精选72°小米MiMo模型近期大幅降价,背后是团队对推理系统的彻底重构。他们采用Hybrid Sliding Window Attention架构,将KVCache存储压缩至全注意力的约1/7。团队针对SWA缓存难题重新设计了KVCache管理、层级缓存和prefix-cache tree,并优化了调度策略与Prefill/Decode流水线。在真实生产流量下,有效KVCache容量提升近5倍,缓存命中率稳定在93%-95%。结合MoE配置调优和多模态推理优化,最终实现了长上下文推理成本的降低,支撑了此次降价。AI产品小米MiMo推理优化KVCacheHybrid Sliding Window Attention推荐理由:做模型推理优化的团队值得看看——小米MiMo团队用Hybrid SWA和系统级优化把成本打下来,证明了架构落地比参数更重要,建议点开了解具体实现。原文