低延迟 · AI 话题观测

§ 01综述

低延迟是当前 AI 系统优化的核心目标之一，尤其在实时交互场景中。近期，多家机构从模型、基础设施到应用层推出了针对性改进。

Perplexity 开源了 Unigram 分词器，通过优化 token 处理将 CPU 利用率降低 5-6 倍，直接减少了推理阶段的延迟。(Perplexity 开源 Unigram 分词器，CPU 利用率降低 5-6 倍)

谷歌发布 Gemini 3.5 Flash，在多项基准上实现低延迟与低成本，并专为实时编程场景优化，旨在满足开发者对快速响应的需求。(谷歌发布 Gemini 3.5 Flash，低延迟低成本领先多项基准，Gemini 3.5 Flash 低延迟模型发布，专为实时编程优化)

学术界提出 Streaming SpeechLLM，实现端到端语音翻译仅需1-2秒延迟，突破了传统级联系统的高耗时瓶颈。(Streaming SpeechLLM 实现低延迟语音翻译，仅需1-2秒)

NVIDIA 修复其推理框架 Dynamo 中 Agent 推理与工具调用漂移问题，提升了多步推理链路中的延迟稳定性。(NVIDIA Dynamo硬核修复：Agent推理与工具调用漂移问题)

当前焦点在于如何平衡低延迟与模型质量，以及如何在端侧和云侧协同优化。未来需关注：低延迟模型在复杂任务（如多模态、多轮对话）中的表现，以及开源社区在推理效率上的持续突破。

§ 02相关报道09 条在档

§ 03邻近话题