AI模型精选

小米MiMo联合TileRT推MiMo-V2.5-Pro-UltraSpeed:1万亿参数模型超1000 tokens/秒

Xiaomi MiMo and TileRT Push a 1-Trillion-Parameter Model Past 1000 Tokens Per Second on Commodity GPUs

精选理由

1万亿参数跑出1000t/s

AI 摘要

小米MiMo团队与TileRT发布MiMo-V2.5-Pro-UltraSpeed推理模式。该模式在单个8-GPU普通节点上,使1万亿参数模型MiMo-V2.5-Pro的译码速度超过1000 tokens/秒。这是首次在commodity GPU上实现如此高吞吐量。相比此前方案,速度提升显著。

图片来源 · marktechpost
AI 翻译 · 中文

小米MiMo团队与TileRT发布MiMo-V2.5-Pro-UltraSpeed推理模式。该模式在单个8-GPU普通节点上,使1万亿参数模型MiMo-V2.5-Pro的译码速度超过1000 tokens/秒。这是首次在commodity GPU上实现如此高吞吐量。相比此前方案,速度提升显著。

marktechpostXiaomi's MiMo team, with TileRT, released MiMo-V2.5-Pro-UltraSpeed, a serving mode for the MiMo-V2.5-Pro model. It decodes over 1000 tokens per second on a 1-trillion-parameter model using a single 8-GPU commodity node.