小米MiMo联合TileRT推MiMo-V2.5-Pro-UltraSpeed：1万亿参数模型超1000 tokens/秒

精选理由

1万亿参数跑出1000t/s

AI 摘要

小米MiMo团队与TileRT发布MiMo-V2.5-Pro-UltraSpeed推理模式。该模式在单个8-GPU普通节点上，使1万亿参数模型MiMo-V2.5-Pro的译码速度超过1000 tokens/秒。这是首次在commodity GPU上实现如此高吞吐量。相比此前方案，速度提升显著。

小米MiMo联合TileRT推MiMo-V2.5-Pro-UltraSpeed：1万亿参数模型超1000 tokens/秒 — 图片来源 · marktechpost

AI 翻译 · 中文

marktechpostXiaomi's MiMo team, with TileRT, released MiMo-V2.5-Pro-UltraSpeed, a serving mode for the MiMo-V2.5-Pro model. It decodes over 1000 tokens per second on a 1-trillion-parameter model using a single 8-GPU commodity node. …

阅读原文