AITP
精选全部 AI 动态AI 日报Agent 接入关于更新日志信源提报反馈
登录 / 注册
AITOP
全部 AI 动态
AI 相关资讯全量信息流
全部博客资讯推文论文
全部模型产品行业论文技巧
标签:推理速度×
6月16日
20:46
AITOP6月16日 20:46
600亿美元买下Cursor,xAI终于拿到了编程工具,但真正值得跟踪的或许不是AI600亿美元买下Cursor,xAI终于拿到了编程工具,但真正值得跟踪的或许不是AI
6月12日
12:57
AITOP6月12日 12:57
Claude代码里藏了个20260612,18个月后的AI记忆革命已经开始倒计时
6月11日
15:28
AITOP6月11日 15:28
1107 vs 303:谷歌悄悄开源了一个“拆打字机”的模型,把大模型速度翻了4倍
15:23
AITOP6月11日 15:23
DiffusionGemma颠覆文本生成?自回归模型的“统治”要结束了
15:07
AITOP6月11日 15:07
每秒1107个token,Google开源的扩散模型为什么能改变本地推理格局?
6月9日
15:00
15:00IT之家(博客/媒体)
88°
小米 MiMo 与 TileRT 联合发布 MiMo-V2.5-Pro-UltraSpeed 模式,首次在 1 万亿参数模型上实现超过 1000 tokens/s 的输出速度。该模式 API 已上线,定价为原版的 3 倍,但输出速度提升约 10 倍。由于高速推理资源有限,该模式采取申请制限时开放,申请通过的用户可在 2026 年 6 月 9 日至 6 月 23 日期间免费体验 Chat 功能,每日最多 10 次会话,每次最长 30 分钟。这一突破标志着万亿参数模型在实时推理场景中的实用化迈出关键一步。
AI模型万亿参数模型推理速度MiMoTileRTAPI

推荐理由:万亿参数模型首次达到千 tokens/s 输出,做大规模推理或实时 AI 应用的团队可以直接申请体验,看看能否真正落地到生产环境。
原文
5月22日
16:08
16:08pandaily@contact@pandaily.com (Pandaily)
精选83°
智谱AI发布了GLM-5.1-highspeed API,这是其GLM-5.1模型的高速推理版本,输出速度达到每秒400个token。这一速度据称是全球主要大模型提供商中最快的,显著提升了实时应用场景下的响应效率。该API适用于需要低延迟的对话、代码生成和内容创作等场景。此举标志着国产大模型在推理性能上取得重要突破,对开发者构建高并发AI应用具有直接价值。
AI产品智谱AIGLM-5.1高速API推理速度国产大模型

推荐理由:400 tokens/s的推理速度让实时AI应用成为可能,做聊天机器人或代码补全的开发者可以直接接入体验,响应延迟会明显降低。
原文
精选全部日报登录