小米近期发布的 MiMo V2.5 Pro UltraSpeed 模式引发了广泛关注,其核心亮点在于以 3 倍的价格实现了约 10 倍的输出速度提升。具体而言,该模型在单节点 8 卡配置下,能够以每秒超过 1000 个 token 的速度生成内容,这在万亿参数规模的大模型中实属罕见。多家实测显示,该模式确实达到了 1000+ TPS 的生成速度,例如 Viking 和歸藏均验证了这一数据,并指出其参数规模为 1T(万亿)。
当前焦点集中在两个方面:一是这种高速模式的实际应用场景,比如是否适用于实时交互或大规模内容生成;二是其定价与性能的平衡——虽然速度提升显著,但 3 倍的价格增量是否能为用户带来足够的性价比仍待市场检验。此外,该模式的技术实现细节尚未完全公开,例如是否采用了特殊的量化或稀疏化策略来达成如此高的吞吐量。
未来观察点包括:其他大模型厂商是否会跟进类似的“超速”模式;该模式在更长文本或复杂推理任务中的稳定性;以及小米是否将 UltraSpeed 推广至更小规模的模型或更多应用场景。