15:00IT之家(博客/媒体)88°小米 MiMo 与 TileRT 联合发布 MiMo-V2.5-Pro-UltraSpeed 模式,首次在 1 万亿参数模型上实现超过 1000 tokens/s 的输出速度。该模式 API 已上线,定价为原版的 3 倍,但输出速度提升约 10 倍。由于高速推理资源有限,该模式采取申请制限时开放,申请通过的用户可在 2026 年 6 月 9 日至 6 月 23 日期间免费体验 Chat 功能,每日最多 10 次会话,每次最长 30 分钟。这一突破标志着万亿参数模型在实时推理场景中的实用化迈出关键一步。AI模型万亿参数模型推理速度MiMoTileRTAPI推荐理由:万亿参数模型首次达到千 tokens/s 输出,做大规模推理或实时 AI 应用的团队可以直接申请体验,看看能否真正落地到生产环境。原文
16:08pandaily@contact@pandaily.com (Pandaily)精选83°智谱AI发布了GLM-5.1-highspeed API,这是其GLM-5.1模型的高速推理版本,输出速度达到每秒400个token。这一速度据称是全球主要大模型提供商中最快的,显著提升了实时应用场景下的响应效率。该API适用于需要低延迟的对话、代码生成和内容创作等场景。此举标志着国产大模型在推理性能上取得重要突破,对开发者构建高并发AI应用具有直接价值。AI产品智谱AIGLM-5.1高速API推理速度国产大模型推荐理由:400 tokens/s的推理速度让实时AI应用成为可能,做聊天机器人或代码补全的开发者可以直接接入体验,响应延迟会明显降低。原文