20:09Viking@vikingmute小米发布了 MiMo-V2.5-Pro-UltraSpeed 模型,拥有 1T 参数,生成速度达到 1000 TPS。官方演示视频显示速度极快,引发关注。目前该模型开放试用申请,但用户对其实际质量存疑,因为小米此前在 AI 模型领域知名度不高。该模型在 HackerNews 上引起讨论,速度指标令人印象深刻,但最终效果仍需实测验证。AI模型小米MiMo大模型推理速度TPS1 个信源在谈推荐理由:1T 参数模型跑出 1000 TPS 的生成速度,对追求低延迟推理的开发者来说是个值得关注的指标,建议申请试用实测质量。原文
13:29xiaomimimo@xiaomimimo88°小米与TileRT AI合作发布MiMo-V2.5-Pro-UltraSpeed,首次在1万亿参数模型上实现超过1000 tokens/s的输出速度。该突破仅使用单个标准8-GPGPU节点,无需Cerebras的晶圆级集成或Groq的纯片上SRAM芯片。技术细节已公开,并提供限时免费试用和API服务。这标志着大模型推理效率的重大飞跃,有望推动实时AI应用的普及。AI产品小米MiMo推理加速大模型GPU推荐理由:大模型推理速度的里程碑——1T模型跑出1000+ tokens/s,做实时AI应用和推理优化的团队值得关注,可以直接申请试用体验。原文
00:16berryxia@berryxia精选72°小米MiMo模型近期大幅降价,背后是团队对推理系统的彻底重构。他们采用Hybrid Sliding Window Attention架构,将KVCache存储压缩至全注意力的约1/7。团队针对SWA缓存难题重新设计了KVCache管理、层级缓存和prefix-cache tree,并优化了调度策略与Prefill/Decode流水线。在真实生产流量下,有效KVCache容量提升近5倍,缓存命中率稳定在93%-95%。结合MoE配置调优和多模态推理优化,最终实现了长上下文推理成本的降低,支撑了此次降价。AI产品小米MiMo推理优化KVCacheHybrid Sliding Window Attention推荐理由:做模型推理优化的团队值得看看——小米MiMo团队用Hybrid SWA和系统级优化把成本打下来,证明了架构落地比参数更重要,建议点开了解具体实现。原文
12:23Viking@vikingmuteDeepSWE 是一个全新的 coding benchmark,所有任务均为原创、从零编写,避免了模型预训练数据记忆污染。任务涵盖多种编程语言,复杂度接近真实世界,参考解决方案平均需修改 668 行代码。排行榜显示 GPT-5.5 xhigh 通过率最高,GPT-5.4 xhigh 第二,其他模型通过率较低。小米的模型表现意外不错,值得关注。AI模型coding benchmarkDeepSWEGPT-5.5小米模型评估推荐理由:这个基准测试解决了现有 coding benchmark 数据污染问题,做 AI 编程模型评估的团队可以直接参考排行榜,小米模型的表现值得一试。原文
15:02xiaomimimo@XiaomiMiMo73°小米MiMo-V2.5-Pro在最新Arena排行榜(2026年4月26日)中取得多项突破:在Text Arena专家级排名全球第6、开源模型第1,并在中国模型中排名第1,小米实验室整体排名全球第3,仅次于Anthropic和OpenAI。该模型在Text Arena综合排名中位列开源第2,在Code Arena网页开发排名中位列开源第3。此外,在Hard Prompts、指令遵循、长查询等4个子榜单中均获开源第1。这些成绩基于真实社区盲评,反映了模型的实际能力。AI模型小米MiMo-V2.5-Pro开源模型排行榜编码能力10 个信源在谈推荐理由:小米MiMo-V2.5-Pro在多个高难度榜单中超越众多闭源模型,做模型选型或关注开源生态的开发者值得关注——它证明了开源模型在核心智能和实际编码任务上已能媲美顶级闭源方案。原文