高速推理正成为大模型落地应用的关键竞争维度。近期,多家厂商在推理速度上取得突破:小米推出 MiMo-V2.5-Pro UltraSpeed 模式,宣称以 3 倍价格带来 10 倍输出体验(小米发布 MiMo-V2.5-Pro UltraSpeed 模式,3 倍价格 10 倍输出体验);智谱发布 GLM-5.1 高速版,输出速度达到 400 tokens/s(智谱 GLM-5.1 高速版发布,输出速度达 400 tokens/s);Cerebras 则为 Kimi K2.6 提供约 1000 tokens/s 的高速推理支持(Cerebras 为 Kimi K2.6 提供 ~1000 tokens/s 高速推理)。当前焦点在于如何在维持生成质量的同时进一步压低延迟,以及高速推理带来的成本与能耗挑战。未来观察点包括专用硬件与算法优化协同的进展,以及高速度是否能在实际场景中转化为真正的用户体验提升。
№高速推理·general
高速推理
别名
- 首次出现
- 2026-05-22
- 最近出现
- 2026-06-09
- 累计提及
- 2
§ 01综述
§ 02相关报道03 条在档
§ 03邻近话题