realtime·general

real-time

别名
首次出现
2026-05-22
最近出现
2026-06-12
累计提及
75
§ 01综述

实时处理能力正在成为AI应用的核心竞争力,近期多个重大发布将语音、翻译、编码等场景的延迟降至毫秒级。

  • 实时语音与翻译:OpenAI发布gpt-realtime-translate模型,支持70+语言的实时互译;GPT-4o作为原生多模态模型,实现了语音、视觉与文本的同步处理。Codex则展示了实时转录会议并回答问题的能力,凸显了实时通讯在企业协作中的潜力。
  • 端到端语音模型:StepFun推出StepAudio 2.5 Realtime,该模型不仅具备实时语音生成能力,还引入了角色扮演RLHF和副语言理解,能够在对话中捕捉语气、情感等非语言信息,进一步逼近人类交互的自然度。
  • 开发工具与生态:OpenAI的Realtime API降低了构建语音到语音应用的门槛,官方示例展示了会议看板助手的实现。腾讯云TRTC则在黑客松中支持了实时多模态应用,加速了开发实践。
  • 当前焦点是实时AI能否在保持低延迟的同时,处理更复杂的上下文与多模态输入。未来值得观察的方向包括:实时模型的成本能否随规模下降从而支持日常应用,以及角色扮演RLHF等方法是否会成为语音AI的标准训练范式。

    § 02相关报道10 条在档
    1. 01
      Google AI 本周发布:Nano Banana 2、Co-Scientist、Gemma 4 12B 等
      Google AI
    2. 02
      谷歌推出 Magenta RealTime 2:本地实时音乐 AI,延迟降至 200 毫秒
      IT之家
    3. 03
      Google Magenta 发布 MRT2 开源音乐模型,可实时演奏
      Google AI Developers
    4. 04
      GPT Realtime 2.0 催生 17 个创业点子,实时语音交互新范式
      AI Will
    5. 05
      GPT Realtime 2.0 催生17个新创业想法
      AI Will
    6. 06
      GPT-Realtime 2.0 实时语音操控电脑,被称“真正的Siri”
      小互
    7. 07
      OpenAI 发布实时翻译模型 gpt-realtime-translate,支持 70+ 输入语言
      Greg Brockman
    8. 08
      Codex 实时转录会议并回答问题,Simon Smith 演示新技能
      Greg Brockman
    9. 09
      StepFun 发布 StepAudio 2.5 Realtime:端到端语音模型,支持角色扮演 RLHF
      marktechpost
    10. 10
      腾讯云TRTC助力SCU黑客松,Pitch Tank获最佳应用奖
      腾讯混元 Tencent Hunyuan
    § 03邻近话题

    本页综述由 AITOP 基于公开报道整理。原报道版权归各自来源所有。

    /topic/real-time