全部 AI 动态 · AI 热点

6月30日

14:11

xAI@xai

精选73°

xAI 在 Vercel AI Gateway 中集成了 Grok 的实时语音功能，提供三个模型：xai/grok-voice-think-fast-1.0（实时语音交互）、xai/grok-tts（文本转语音）、xai/grok-stt（语音转文本）。开发者可通过 AI SDK 7 调用这些 API，构建语音应用。该发布使得 Grok 的语音能力首次以 API 形式对外开放。

AI产品 xAI Grok Vercel AI Gateway 语音API 实时语音

推荐理由：xAI 把 Grok 的实时语音做成 API 了，三个模型直接上 Vercel AI Gateway，AI SDK 7 就能调，做语音应用省大事了。

原文

6月23日

13:54

@koltregaskes@koltregaskes

OpenAI的实时语音模式“Bidi 1”即将推出，目前已在UI中出现但处于隐藏状态。该功能预计在近期内开放给用户使用。消息来自X平台用户爆料。

AI产品 OpenAI Bidi 1 实时语音语音模式

推荐理由：OpenAI马上要出实时语音模式“Bidi 1”了，界面里已经藏着一个彩蛋，很快就能用上。

原文

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

00:13

Yangyi@Yangyixxxx

Anthropic 正在为 Claude 的语音模式准备重大升级，测试版已出现模型选择器和语言选择器。目前无论选择哪个模型，实际都使用 Claude Haiku 4.5，但新功能暗示未来可能支持非 TTS 语音模式。这一变化意味着 Claude 的实时语音交互将更加灵活，用户可自主选择底层模型。对于依赖语音交互的开发者与用户，这可能是提升体验的关键更新。

AI产品 Claude 语音模式模型选择 Anthropic 实时语音

推荐理由：Anthropic 正在为 Claude 语音模式加入模型选择器，做语音交互应用或重度使用 Claude 语音的用户值得关注，未来可能告别单一 Haiku 限制。

原文

6月1日

19:05

AI Will@FinanceYF5

72°

Greg Isenberg 分享了基于 GPT Realtime 2.0 的 17 个创业想法，这些想法只有在实时语音模型支持下才能实现。涵盖实时合同谈判、语音交易终端、多语言同传、医疗问诊、现场服务调度、编程助手、拍卖代理、律师证词准备、播客研究、销售教练、房产评估、智能婴儿监护等场景。核心特点是模型能在对话中并行查询多个数据源、理解专业术语、支持 128K 上下文，并可根据任务复杂度调整推理深度。这些想法展示了实时语音 AI 如何将传统需要多步骤、多工具的任务压缩到一次对话中完成。

AI产品 GPT Realtime 2.0 实时语音创业点子智能体多模态

推荐理由：实时语音 AI 终于有了具体可落地的商业场景，做创业或产品经理的可以直接从中找灵感，17 个方向覆盖了从法律到医疗的多个垂直领域，值得收藏研究。

原文

5月22日

08:05

shao__meng@shao__meng

精选

本文介绍了如何通过 Codex 快速安装 Agora Skills，并基于它搭建一个浏览器端的实时语音 AI Agent Demo。整个过程由 Codex 自动完成，从安装到运行仅需几分钟，无需手动编码。Demo 实现了流畅的实时语音对话，响应延迟接近人与人通话水平，RTC/RTM/Conversational AI 启动在 2-3 秒内，语音输出延迟约 1 秒。Agora Skills 集成了 RTC、RTM、Conversational AI 等能力，适合快速验证语音交互场景。

AI产品 Voice Agent Agora Skills Codex 实时语音 WebRTC

推荐理由：做 Voice Agent 的开发者终于有了开箱即用的集成方案——Agora Skills 配合 Codex 几分钟就能跑通实时语音对话，延迟接近真人通话，建议做陪伴、交互类 Agent 的团队直接试。

原文

5月21日

10:48

@OpenAIDevs@OpenAIDevs

OpenAI 开发者账号宣布将于5月27日在旧金山举办实时语音演示会，邀请开发者展示使用最新语音模型构建的原型和产品。活动面向有趣、实用、有创意且技术上有雄心的项目，优胜者将有机会登台展示、赢取奖品，并被官方账号和社区投票推荐。这是展示实时语音技术应用的好机会，适合正在探索语音交互的开发者参与。

AI产品实时语音 OpenAI 开发者活动语音模型演示会

推荐理由：做语音交互或实时对话应用的开发者，这是直接向 OpenAI 团队展示作品、获取曝光和反馈的绝佳机会，值得报名试试。

原文

5月15日

09:23

Together AI@togethercompute

Together AI 的语音转文本（STT）模型在 Artificial Analysis 排行榜上包揽了转写速度的前两名。其中 NVIDIA Parakeet TDT 0.6B V3 排名第一，每秒可处理 303 秒音频，速度最快。该模型每 1000 分钟音频仅需 1.50 美元，在三个真实数据集上的平均词错误率为 4.6%。对于构建实时语音助手的 AI 开发者来说，快速 STT 是核心基础设施，Together AI 的云服务能帮助团队降低转录、推理和响应的整体延迟。

AI产品语音转文本 Together AI NVIDIA Parakeet 实时语音 AI云服务

推荐理由：实时语音助手开发者终于有了速度最快的 STT 模型——每秒处理 303 秒音频，成本还低，做语音交互的团队可以直接在 Together AI 上试试。

原文