精选理由
400 tokens/s的推理速度让实时AI应用成为可能,做聊天机器人或代码补全的开发者可以直接接入体验,响应延迟会明显降低。
智谱AI发布了GLM-5.1-highspeed API,这是其GLM-5.1模型的高速推理版本,输出速度达到每秒400个token。这一速度据称是全球主要大模型提供商中最快的,显著提升了实时应用场景下的响应效率。该API适用于需要低延迟的对话、代码生成和内容创作等场景。此举标志着国产大模型在推理性能上取得重要突破,对开发者构建高并发AI应用具有直接价值。
AI 翻译 · 中文
智谱AI发布了GLM-5.1-highspeed API,这是其GLM-5.1模型的高速推理版本,输出速度达到每秒400个token。这一速度据称是全球主要大模型提供商中最快的,显著提升了实时应用场景下的响应效率。该API适用于需要低延迟的对话、代码生成和内容创作等场景。此举标志着国产大模型在推理性能上取得重要突破,对开发者构建高并发AI应用具有直接价值。
Zhipu AI has launched GLM-5.1-highspeed, an API variant of its GLM-5.1 model delivering 400 tokens per second — reportedly the fastest inference speed among major global LLM providers.