13:54@koltregaskes@koltregaskesOpenAI的实时语音模式“Bidi 1”即将推出,目前已在UI中出现但处于隐藏状态。该功能预计在近期内开放给用户使用。消息来自X平台用户爆料。AI产品OpenAIBidi 1实时语音语音模式10 个信源在谈推荐理由:OpenAI马上要出实时语音模式“Bidi 1”了,界面里已经藏着一个彩蛋,很快就能用上。原文
00:13Yangyi@YangyixxxxAnthropic 正在为 Claude 的语音模式准备重大升级,测试版已出现模型选择器和语言选择器。目前无论选择哪个模型,实际都使用 Claude Haiku 4.5,但新功能暗示未来可能支持非 TTS 语音模式。这一变化意味着 Claude 的实时语音交互将更加灵活,用户可自主选择底层模型。对于依赖语音交互的开发者与用户,这可能是提升体验的关键更新。AI产品Claude语音模式模型选择Anthropic实时语音10 个信源在谈推荐理由:Anthropic 正在为 Claude 语音模式加入模型选择器,做语音交互应用或重度使用 Claude 语音的用户值得关注,未来可能告别单一 Haiku 限制。原文
19:05AI Will@FinanceYF572°Greg Isenberg 分享了基于 GPT Realtime 2.0 的 17 个创业想法,这些想法只有在实时语音模型支持下才能实现。涵盖实时合同谈判、语音交易终端、多语言同传、医疗问诊、现场服务调度、编程助手、拍卖代理、律师证词准备、播客研究、销售教练、房产评估、智能婴儿监护等场景。核心特点是模型能在对话中并行查询多个数据源、理解专业术语、支持 128K 上下文,并可根据任务复杂度调整推理深度。这些想法展示了实时语音 AI 如何将传统需要多步骤、多工具的任务压缩到一次对话中完成。AI产品GPT Realtime 2.0实时语音创业点子智能体多模态1 个信源在谈推荐理由:实时语音 AI 终于有了具体可落地的商业场景,做创业或产品经理的可以直接从中找灵感,17 个方向覆盖了从法律到医疗的多个垂直领域,值得收藏研究。原文
08:05shao__meng@shao__meng精选本文介绍了如何通过 Codex 快速安装 Agora Skills,并基于它搭建一个浏览器端的实时语音 AI Agent Demo。整个过程由 Codex 自动完成,从安装到运行仅需几分钟,无需手动编码。Demo 实现了流畅的实时语音对话,响应延迟接近人与人通话水平,RTC/RTM/Conversational AI 启动在 2-3 秒内,语音输出延迟约 1 秒。Agora Skills 集成了 RTC、RTM、Conversational AI 等能力,适合快速验证语音交互场景。AI产品Voice AgentAgora SkillsCodex实时语音WebRTC推荐理由:做 Voice Agent 的开发者终于有了开箱即用的集成方案——Agora Skills 配合 Codex 几分钟就能跑通实时语音对话,延迟接近真人通话,建议做陪伴、交互类 Agent 的团队直接试。原文
10:48@OpenAIDevs@OpenAIDevsOpenAI 开发者账号宣布将于5月27日在旧金山举办实时语音演示会,邀请开发者展示使用最新语音模型构建的原型和产品。活动面向有趣、实用、有创意且技术上有雄心的项目,优胜者将有机会登台展示、赢取奖品,并被官方账号和社区投票推荐。这是展示实时语音技术应用的好机会,适合正在探索语音交互的开发者参与。AI产品实时语音OpenAI开发者活动语音模型演示会10 个信源在谈推荐理由:做语音交互或实时对话应用的开发者,这是直接向 OpenAI 团队展示作品、获取曝光和反馈的绝佳机会,值得报名试试。原文
09:23Together AI@togethercomputeTogether AI 的语音转文本(STT)模型在 Artificial Analysis 排行榜上包揽了转写速度的前两名。其中 NVIDIA Parakeet TDT 0.6B V3 排名第一,每秒可处理 303 秒音频,速度最快。该模型每 1000 分钟音频仅需 1.50 美元,在三个真实数据集上的平均词错误率为 4.6%。对于构建实时语音助手的 AI 开发者来说,快速 STT 是核心基础设施,Together AI 的云服务能帮助团队降低转录、推理和响应的整体延迟。AI产品语音转文本Together AINVIDIA Parakeet实时语音AI云服务推荐理由:实时语音助手开发者终于有了速度最快的 STT 模型——每秒处理 303 秒音频,成本还低,做语音交互的团队可以直接在 Together AI 上试试。原文