语音模型·general

语音模型

别名
首次出现
2026-05-22
最近出现
2026-06-12
累计提及
13
§ 01综述

近期语音模型领域进入实时性与多模态融合的加速期,多个重磅模型发布,标志着从「能听会说」向「实时理解与交互」的质变。

    主要进展:
  • OpenAI 发布 gpt-realtime-translate 实时翻译模型:支持 70+ 输入语言,依托 GPT-4o 的语音到语音架构,实现低延迟翻译,进一步拓展了语音模型的应用边界。(来源)
  • 阶跃星辰发布 StepAudio 2.5 Realtime:端到端语音模型,专为角色扮演场景优化,采用 RLHF 对齐,能够理解语调、音色等副语言信息,完成更自然的交互。(来源)
  • 阿里通义千问推出 Qwen3.5-LiveTranslate:实时语音翻译模型,延迟低至 2.8 秒,支持多语言,专注于对流式语音的快速处理。(来源)
  • gpt-realtime-2 语音模型升级:智能度大幅提升,反应更自然、上下文理解更强,OpenAI 还邀请开发者展示实时语音作品,推动社区应用。(来源1)(来源2)

当前焦点/未来观察:
当前焦点在于语音模型的「实时性」和「拟人化」:端到端架构取代级联系统,延迟降至秒级甚至毫秒级;同时开始重视副语言信息(情绪、语调、风格)的理解与生成,在客服、教育、娱乐、翻译等场景中逐步落地。未来观察点包括:模型的跨语言泛化能力、多轮对话中的长上下文记忆、以及如何克服口音、噪声等现实干扰。此外,语音模型与文本、图像的多模态融合将成为下一阶段竞争的关键。

§ 02相关报道10 条在档
  1. 01
    微软发布更具表现力的语音模型,可在MAI Playground体验
    Mustafa Suleyman
  2. 02
    Google 发布 Gemini 3.5 Live Translate:实时翻译保留语调
    orange.ai
  3. 03
    Google 发布 Gemini 3.5 Live Translate 实时翻译模型
    小互
  4. 04
    Google Gemini 3.5 Live Translate 实时翻译70+语言
    Decoder
  5. 05
    Google 发布 Gemini 3.5 Live Translate,实时语音翻译支持 70+ 语言
    Google AI
  6. 06
    mlx-audio v0.4.4 发布:15 个新模型,Apple Silicon 上最强音频版
    berryxia
  7. 07
    开源语音模型 Audio Interaction 每 0.4 秒决定是否说话
    Decoder
  8. 08
    微软发布MAI系列模型:MAI-Thinking-1推理模型及6款新模型
    Mustafa Suleyman
  9. 09
    ElevenLabs 展示最具表现力 AI 语音模型,现场演示客服体验
    ElevenLabs
  10. 10
    OpenAI 发布实时翻译模型 gpt-realtime-translate,支持 70+ 输入语言
    Greg Brockman
§ 03邻近话题

本页综述由 AITOP 基于公开报道整理。原报道版权归各自来源所有。

/topic/%E8%AF%AD%E9%9F%B3%E6%A8%A1%E5%9E%8B