TileRT

§ 01综述

近期，大语言模型推理速度竞赛加速，小米与智谱相继推出高速版本。背景方面，随着模型参数规模突破万亿，如何降低端侧推理延迟成为关键痛点。

近期主要进展：

小米推出 MiMo V2.5-Pro-UltraSpeed 模式，声称在单节点8卡配置下，实现万亿参数模型每秒超过1000个tokens的输出速度，相比标准模式提升约10倍，但价格提升3倍。(原文标题: 小米 MiMo V2.5-Pro-UltraSpeed 突破万亿参数模型千 tokens/s 输出)
小米官方社媒进一步强调：该模式为端到端优化，并非单纯模型压缩，而是通过架构改进达到“3倍价格，10倍输出体验”的效果。(原文标题: 小米MiMo-V2.5-Pro-UltraSpeed：单节点8卡实现1T模型1000+ tokens/s 及小米发布 MiMo-V2.5-Pro UltraSpeed 模式，3 倍价格 10 倍输出体验)
同时，智谱发布 GLM-5.1 高速版，输出速度达到400 tokens/s，虽低于小米，但性价比更高，且与自家完整能力保持平衡。(原文标题: 智谱 GLM-5.1 高速版发布，输出速度达 400 tokens/s)

当前焦点 / 未来观察点：
当前焦点在于“高速”是否能真正落地商用：小米的 UltraSpeed 模式以成本换速度，定价策略是否会被大规模部署接受；智谱则更注重普惠性。未来需观察：这些高速模型在复杂推理任务上的准确性是否下降？是否会推动更多厂商推出类似“涡轮模式”？此外，单节点吞吐量与多节点分布式推理之间的取舍，也将成为行业趋势。

§ 02相关报道04 条在档

§ 03邻近话题