低延迟·general

低延迟

别名
首次出现
2026-05-22
最近出现
2026-06-12
累计提及
9
§ 01综述

低延迟是当前 AI 系统优化的核心目标之一,尤其在实时交互场景中。近期,多家机构从模型、基础设施到应用层推出了针对性改进。

  • Perplexity 开源了 Unigram 分词器,通过优化 token 处理将 CPU 利用率降低 5-6 倍,直接减少了推理阶段的延迟。(Perplexity 开源 Unigram 分词器,CPU 利用率降低 5-6 倍)
  • 谷歌发布 Gemini 3.5 Flash,在多项基准上实现低延迟与低成本,并专为实时编程场景优化,旨在满足开发者对快速响应的需求。(谷歌发布 Gemini 3.5 Flash,低延迟低成本领先多项基准Gemini 3.5 Flash 低延迟模型发布,专为实时编程优化)
  • 学术界提出 Streaming SpeechLLM,实现端到端语音翻译仅需1-2秒延迟,突破了传统级联系统的高耗时瓶颈。(Streaming SpeechLLM 实现低延迟语音翻译,仅需1-2秒)
  • NVIDIA 修复其推理框架 Dynamo 中 Agent 推理与工具调用漂移问题,提升了多步推理链路中的延迟稳定性。(NVIDIA Dynamo硬核修复:Agent推理与工具调用漂移问题)
  • 当前焦点在于如何平衡低延迟与模型质量,以及如何在端侧和云侧协同优化。未来需关注:低延迟模型在复杂任务(如多模态、多轮对话)中的表现,以及开源社区在推理效率上的持续突破。

    § 02相关报道09 条在档
    1. 01
      Zyphra 发布 Zamba2-VL:混合 Mamba2-Transformer 视觉语言模型,首 token 延迟降低约一个数量级
      marktechpost
    2. 02
      Voxtral TTS 发布:低成本低延迟的语音模型
      Guillaume Lample (Mistral)
    3. 03
      DeepCogito用Together AI实现500ms首令牌延迟
      Together AI
    4. 04
      Gemini 3.5 Live Translate 上线,支持 70+ 语言低延迟翻译
      Patrick Loeber
    5. 05
      Perplexity 开源 Unigram 分词器,CPU 利用率降低 5-6 倍
      Perplexity
    6. 06
      谷歌发布 Gemini 3.5 Flash,低延迟低成本领先多项基准
      SuperTechFans
    7. 07
      Gemini 3.5 Flash 低延迟模型发布,专为实时编程优化
      Google AI Developers
    8. 08
      Streaming SpeechLLM 实现低延迟语音翻译,仅需1-2秒
      arXiv cs.AI
    9. 09
      NVIDIA Dynamo硬核修复:Agent推理与工具调用漂移问题
      NVIDIA AI
    § 03邻近话题

    本页综述由 AITOP 基于公开报道整理。原报道版权归各自来源所有。

    /topic/%E4%BD%8E%E5%BB%B6%E8%BF%9F