voice

§ 01综述

Voice（语音技术）正从单一的语音识别与合成向多模态交互、智能代理构建平台演进，成为AI落地的关键接口。近期多家公司密集推出语音Agent构建工具与模型，推动语音交互从对话式AI向主动、双向、可编程的下一代界面进化。

Voice Agent构建平台近期进展

xAI推出Grok Voice Agent Builder：这是一个无代码平台，允许用户通过拖拽方式快速构建语音代理，并整合了Grok Voice模型与语音API栈，大幅降低了语音应用的开发门槛。(来源)

OpenAI语音模型Bidi 1首测曝光：该模型支持双向对话，能同时处理用户输入与生成响应，模拟人类对话中的轮流自然中断与补充，提升交互流畅度。(来源)

微软AI演示语音转代码：展示MAI系列模型协同工作，通过语音指令直接生成代码，实现从自然语言到可执行程序的更直接映射。(来源)

DeepLearning.AI发起Voice AI Builder挑战：联合VocalBridge推出7天挑战与短课程，教导开发者构建能主动打电话的语音智能体，强调语音代理从被动响应到主动触达的能力转变。(来源)

当前焦点与观察点

语音技术领域当前聚焦于两个方向：一是降低构建门槛，xAI和DeepLearning.AI分别从平台和课程切入，使非专业开发者也能快速创建语音Agent；二是提升交互深度，OpenAI的Bidi模型和微软的语音转代码试图打破传统一问一答的局限，实现更自然、多模态的协作。此外，围绕语音与SaaS的关系，业界开始探讨接口解绑的可能——语音Agent可能取代传统图形界面作为新的服务入口。这些进展表明，语音正从输入输出工具转变为AI Agent的核心交互范式。

§ 02相关报道10 条在档

§ 03邻近话题