AITP
精选全部 AI 动态AI 日报Agent 接入关于更新日志信源提报反馈
登录 / 注册
AITOP
全部 AI 动态
AI 相关资讯全量信息流
全部博客资讯推文论文
全部模型产品行业论文技巧
标签:Hybrid Sliding Window Attention×
6月16日
20:46
AITOP6月16日 20:46
600亿美元买下Cursor,xAI终于拿到了编程工具,但真正值得跟踪的或许不是AI600亿美元买下Cursor,xAI终于拿到了编程工具,但真正值得跟踪的或许不是AI
6月12日
12:57
AITOP6月12日 12:57
Claude代码里藏了个20260612,18个月后的AI记忆革命已经开始倒计时
6月11日
15:28
AITOP6月11日 15:28
1107 vs 303:谷歌悄悄开源了一个“拆打字机”的模型,把大模型速度翻了4倍
15:23
AITOP6月11日 15:23
DiffusionGemma颠覆文本生成?自回归模型的“统治”要结束了
15:07
AITOP6月11日 15:07
每秒1107个token,Google开源的扩散模型为什么能改变本地推理格局?
5月31日
00:16
00:16berryxia@berryxia
精选72°
小米MiMo模型近期大幅降价,背后是团队对推理系统的彻底重构。他们采用Hybrid Sliding Window Attention架构,将KVCache存储压缩至全注意力的约1/7。团队针对SWA缓存难题重新设计了KVCache管理、层级缓存和prefix-cache tree,并优化了调度策略与Prefill/Decode流水线。在真实生产流量下,有效KVCache容量提升近5倍,缓存命中率稳定在93%-95%。结合MoE配置调优和多模态推理优化,最终实现了长上下文推理成本的降低,支撑了此次降价。
AI产品小米MiMo推理优化KVCacheHybrid Sliding Window Attention

推荐理由:做模型推理优化的团队值得看看——小米MiMo团队用Hybrid SWA和系统级优化把成本打下来,证明了架构落地比参数更重要,建议点开了解具体实现。
原文
精选全部日报登录