15:00IT之家(博客/媒体)88°小米 MiMo 与 TileRT 联合发布 MiMo-V2.5-Pro-UltraSpeed 模式,首次在 1 万亿参数模型上实现超过 1000 tokens/s 的输出速度。该模式 API 已上线,定价为原版的 3 倍,但输出速度提升约 10 倍。由于高速推理资源有限,该模式采取申请制限时开放,申请通过的用户可在 2026 年 6 月 9 日至 6 月 23 日期间免费体验 Chat 功能,每日最多 10 次会话,每次最长 30 分钟。这一突破标志着万亿参数模型在实时推理场景中的实用化迈出关键一步。AI模型万亿参数模型推理速度MiMoTileRTAPI推荐理由:万亿参数模型首次达到千 tokens/s 输出,做大规模推理或实时 AI 应用的团队可以直接申请体验,看看能否真正落地到生产环境。原文
00:49marktechpost@Asif Razzaq精选小米MiMo团队与TileRT发布MiMo-V2.5-Pro-UltraSpeed推理模式。该模式在单个8-GPU普通节点上,使1万亿参数模型MiMo-V2.5-Pro的译码速度超过1000 tokens/秒。这是首次在commodity GPU上实现如此高吞吐量。相比此前方案,速度提升显著。AI模型MiMoTileRTMiMo-V2.5-Pro-UltraSpeedXiaomi推理加速推荐理由:1万亿参数跑出1000t/s原文