语音交互·general

语音交互

别名
首次出现
2026-05-22
最近出现
2026-06-07
累计提及
18
§ 01综述

语音交互技术正加速从对话助手向操作系统级能力演进,呈现出多场景渗透、实时性提升和智能体协同三大趋势。近期,OpenAI 展示了以语音优先的手机操作系统 Agentic OS,将语音交互提升为系统核心交互方式(OpenAI 展示 Agentic OS:语音优先的手机操作系统)。同时,GPT-Realtime 2.0 被称作“真正的 Siri”,能够通过实时语音操控电脑,标志着语音控制向通用任务执行迈进(GPT-Realtime 2.0 实时语音操控电脑,被称“真正的 Siri”)。在应用层面,有开发者利用 Claude 和 Three.js 在两周内 Vibe Coding 出古风实时语音互动小游戏,展示了低成本快速构建语音交互产品的可能性(用Claude和Three.js两周Vibe Coding出古风实时语音互动小游戏)。此外,谷歌将 Gemini 语音交互扩展至 YouTube 和 Docs 等生产力场景(Gemini 语音交互扩展至 YouTube 和 Docs,夏季上线),而阿里云推出 RocketMQ LiteTopic 以优化智能体语音交互的稳定性和延迟(阿里云RocketMQ LiteTopic:让智能体语音交互更稳定低延迟),显示业界正从基础设施层面支撑语音交互的规模化落地。当前焦点集中在实时性、多模态融合(视觉、语音、操控)以及从单一对话到多智能体协作的转变。未来需观察:语音优先操作系统能否改变移动交互范式,以及实时语音交互在复杂场景(如多席位会议、游戏)中的可靠性表现。

§ 02相关报道10 条在档
  1. 01
    Spotify 加入 AI Agent,语音找歌列歌单
    向阳乔木
  2. 02
    Mira Murati:AI 协作需要能边听边想的交互模型
    a16z
  3. 03
    Open-LLM-VTuber v1.2.1:开源本地 AI VTuber 框架,支持可打断对话
    岚叔
  4. 04
    荣耀 Magic8/500/X70 全系列率先支持微信 A2A 助手
    IT之家
  5. 05
    Agentic OS for a Phone 赢得 OpenAI Voice Hack Night 人民选择奖
    @OpenAIDevs
  6. 06
    OpenAI Hack Night 团队演示手机“agentic 操作系统”,UI 即时生成
    小互
  7. 07
    用Claude和Three.js两周Vibe Coding出古风实时语音互动小游戏
    berryxia
  8. 08
    GPT-Realtime 2.0 实时语音操控电脑,被称“真正的Siri”
    小互
  9. 09
    OpenAI 展示 Agentic OS:语音优先的手机操作系统
    @OpenAIDevs
  10. 10
    Wagner:多智能体虚拟会议室,助力基础设施规划
    @OpenAIDevs
§ 03邻近话题

本页综述由 AITOP 基于公开报道整理。原报道版权归各自来源所有。

/topic/%E8%AF%AD%E9%9F%B3%E4%BA%A4%E4%BA%92