精选理由
1万亿参数跑出1000t/s
小米MiMo团队与TileRT发布MiMo-V2.5-Pro-UltraSpeed推理模式。该模式在单个8-GPU普通节点上,使1万亿参数模型MiMo-V2.5-Pro的译码速度超过1000 tokens/秒。这是首次在commodity GPU上实现如此高吞吐量。相比此前方案,速度提升显著。
AI 翻译 · 中文
小米MiMo团队与TileRT发布MiMo-V2.5-Pro-UltraSpeed推理模式。该模式在单个8-GPU普通节点上,使1万亿参数模型MiMo-V2.5-Pro的译码速度超过1000 tokens/秒。这是首次在commodity GPU上实现如此高吞吐量。相比此前方案,速度提升显著。
Xiaomi's MiMo team, with TileRT, released MiMo-V2.5-Pro-UltraSpeed, a serving mode for the MiMo-V2.5-Pro model. It decodes over 1000 tokens per second on a 1-trillion-parameter model using a single 8-GPU commodity node. …