近期,大语言模型推理速度竞赛加速,小米与智谱相继推出高速版本。背景方面,随着模型参数规模突破万亿,如何降低端侧推理延迟成为关键痛点。
- 近期主要进展:
- 小米推出 MiMo V2.5-Pro-UltraSpeed 模式,声称在单节点8卡配置下,实现万亿参数模型每秒超过1000个tokens的输出速度,相比标准模式提升约10倍,但价格提升3倍。(原文标题: 小米 MiMo V2.5-Pro-UltraSpeed 突破万亿参数模型千 tokens/s 输出)
- 小米官方社媒进一步强调:该模式为端到端优化,并非单纯模型压缩,而是通过架构改进达到“3倍价格,10倍输出体验”的效果。(原文标题: 小米MiMo-V2.5-Pro-UltraSpeed:单节点8卡实现1T模型1000+ tokens/s 及 小米发布 MiMo-V2.5-Pro UltraSpeed 模式,3 倍价格 10 倍输出体验)
- 同时,智谱发布 GLM-5.1 高速版,输出速度达到400 tokens/s,虽低于小米,但性价比更高,且与自家完整能力保持平衡。(原文标题: 智谱 GLM-5.1 高速版发布,输出速度达 400 tokens/s)
当前焦点 / 未来观察点:
当前焦点在于“高速”是否能真正落地商用:小米的 UltraSpeed 模式以成本换速度,定价策略是否会被大规模部署接受;智谱则更注重普惠性。未来需观察:这些高速模型在复杂推理任务上的准确性是否下降?是否会推动更多厂商推出类似“涡轮模式”?此外,单节点吞吐量与多节点分布式推理之间的取舍,也将成为行业趋势。