11:35AI Will@FinanceYF591°OpenAI 新语音模型 Bidi 1 首次曝光,支持双向语音交互:用户说话时模型同时监听,中途打断可立刻切换任务。实时翻译能力与上下文记忆均优于现有 Advanced Voice(高级语音模式)。该模型已小范围推送,ChatGPT 设置中可选,气泡变黄色即为 Bidi 1。后续将推出 Codex 版本。AI模型Bidi 1OpenAI语音模型实时翻译ChatGPT10 个信源在谈推荐理由:OpenAI 出了新语音模型 Bidi 1,你说它听,还能打断换话题,实时翻译也更强,快去 ChatGPT 设置里试试。原文
11:34AI Will@FinanceYF576°据TestingCatalog爆料,OpenAI正在测试名为Bidi 1的双向语音模型。该模型支持用户在说话时同时说话并继续监听,可在句子中间来回切换任务。Bidi 1能更好地处理打断和停顿,并保持对话上下文记忆。模型有持续时间上限,但可连续计数到23不暂停。Bidi 1尚未可用,但预计很快登陆ChatGPT和Codex。AI模型Bidi 1OpenAIChatGPTCodex语音模型10 个信源在谈推荐理由:OpenAI的新语音模型Bidi 1能边听边插话,还能中途换任务,比现在强多了。原文
01:31Gary Marcus@GaryMarcus据传闻,GPT-5.6原定本周发布已推迟,新目标约7月中旬。DeepMind对3.5 Pro当前状态不满意,本月不再发布。OpenAI的Bidi语音模型可能在ChatGPT中本周上线。Claude Sonnet 5已向部分企业客户开放Early Access,被视为过渡方案。行业GPT-5.6DeepMindClaude Sonnet 5Bidi语音模型10 个信源在谈推荐理由:听说GPT-5.6要延迟到7月了,但OpenAI的Bidi语音模型本周可能就能用,Claude Sonnet 5也开始了企业内测。原文
12:55AI Breakfast@AiBreakfastBland AI 宣布完成1亿美元C轮融资,用于继续训练其语音AI模型,使其能够处理长达45分钟的高风险企业电话对话。该模型旨在应对紧急、高风险的电话场景,而非仅仅优化短时客服通话。Bland AI 声称在这一领域处于领先地位。行业Bland企业级语音AI融资电话AI语音模型推荐理由:Bland AI 刚融了1亿美元,专门训练模型搞定45分钟高难度企业电话,不是那种两分钟客服小把戏。原文
18:35Together AI@togethercomputeTogether AI 上线了 Cartesia Sonic 3.5 语音模型,为开发者提供超过150种语音。通过语音查找器,开发者可以试听和比较这些语音,为实时智能体挑选最合适的角色。选定后可直接在 Together AI 平台部署,简化开发流程。AI模型Cartesia Sonic 3.5Together AI语音模型实时语音智能体推荐理由:Together AI 集成了 Cartesia Sonic 3.5,有150多种语音可选,做实时语音智能体可以试试这个新库。原文
03:40@koltregaskes@koltregaskesOpenAI即将推出新语音模型GPT-Bidi-1(代号可能变更)。该模型专为生成更自然的语音交互设计。消息最早由Dev Mode服务器报道,目前无具体发布日期。AI模型GPT-Bidi-1OpenAI语音模型自然语音10 个信源在谈推荐理由:OpenAI要发新语音模型GPT-Bidi-1,听说声音超级自然,比现在的好不少!原文
13:10Guillaume Lample (Mistral)@GuillaumeLample精选73°Guillaume Lample 宣布推出首个语音模型 Voxtral TTS,该模型在性能上达到业界领先水平,同时大幅降低成本和延迟。它采用新架构,结合自回归生成语义语音令牌与流匹配生成声学令牌。团队还发布了技术报告,详细分享了训练方法和洞察。这标志着语音 AI 领域的重要进展,未来将有更多音频相关成果。AI模型语音模型TTS低成本低延迟Voxtral推荐理由:Voxtral TTS 在成本和延迟上显著优于现有方案,做语音合成或实时语音应用的开发者可以直接关注,技术报告也值得细读。原文
02:17Mustafa Suleyman@mustafasuleyman微软CEO Mustafa Suleyman在X上宣布,团队正在开发更具表现力的语音模型,并邀请用户通过MAI Playground体验最新版本。该模型旨在让语音交互更自然、情感更丰富,可能应用于智能助手、客服、有声内容等领域。目前模型已在playground.microsoft.ai开放试用,用户可直接感受其表现力提升。AI产品语音模型微软MAI Playground情感表达自然交互推荐理由:语音交互正在从“能说话”进化到“会表达”,做语音产品、虚拟人、有声内容的团队值得去MAI Playground试一下,感受情感表达的真实度提升。原文
07:47orange.ai@oran_ge76°Google 发布了 Gemini 3.5 Live Translate,一款支持 70 多种语言的实时翻译模型。它能边听边译,仅比说话人慢几秒,并保留语调、节奏和音高。该模型自动滤除噪音,在嘈杂环境中也能使用。Google Translate App 新增「听筒模式」,贴耳即听翻译。开发者可通过 Gemini Live API 和 Google AI Studio 直接调用,且支持自动语言检测。AI产品实时翻译Gemini 3.5 Live Translate语音模型Google TranslateAPI推荐理由:做跨语言沟通、实时翻译或语音应用的开发者可以直接调用 API 体验,不用再忍受延迟和机械感——保留语调的翻译让交流更自然。原文
17:03小互@imxiaohu78°Google 发布了 Gemini 3.5 Live Translate,一款支持 70 多种语言的实时翻译模型。该模型能边听边译,仅比说话人慢几秒,同时保留语调、节奏和音高。它还能自动滤除噪音,在嘈杂环境中也能使用。Google Translate App 新增了「听筒模式」,贴耳即可听翻译。开发者可通过 Gemini Live API 和 Google AI Studio 直接调用,并支持自动语言检测。AI产品实时翻译Gemini 3.5语音模型GoogleAPI推荐理由:实时翻译终于有了「人味」——保留语调节奏,做跨国会议、播客或直播的团队可以直接用 API 集成,体验比传统逐句翻译好太多。原文
04:00Google AI@GoogleAI76°Google AI 发布了 Gemini 3.5 Live Translate,这是其最新的音频模型,专为实时语音到语音翻译设计。该模型支持超过 70 种语言,能在用户开始说话的同时进行翻译,并流式输出结果,无需等待或停顿。它通过同时接收输入和输出翻译语音,在速度和翻译质量之间做出毫秒级决策,保持对话的流畅自然。此外,模型还能在长时间会话中维持语速、音高和语调,提升用户体验。目前该功能已在 Google Translate 应用的 iOS 和 Android 版本中上线。AI产品Gemini 3.5实时翻译语音模型Google AI跨语言沟通推荐理由:跨语言沟通的痛点终于被解决了——Gemini 3.5 Live Translate 让实时翻译不再有尴尬停顿,经常需要与外语人士交流的团队或个人可以直接在 Google Translate 应用中体验。原文
00:59berryxia@berryxia精选mlx-audio v0.4.4 发布,这是其功能最强大的版本,新增了 15 个 TTS、ASR 和 VAD 模型。新模型包括 VoxCPM2、Mega-ASR、Nemotron 3.5 ASR 等,支持 30 种语言、实时语音识别和长文本转录加速。服务器端新增 OpenAI 兼容格式和逐词时间戳功能,所有技术均运行在 Apple Silicon 上。该版本显著提升了 Apple 设备上的音频处理能力,适合开发者集成到本地应用中。AI产品mlx-audioTTS/ASRApple Silicon语音模型开源/仓库10 个信源在谈推荐理由:Apple Silicon 用户终于有了一个本地化的音频处理利器,15 个新模型覆盖 TTS/ASR/VAD,做语音应用或音频工具的开发者可以直接安装测试,尤其关注中文支持效果。原文
05:06Mustafa Suleyman@mustafasuleyman76°微软CEO Mustafa Suleyman在X上宣布发布MAI系列模型,包括MAI-Thinking-1推理模型、MAI-Transcribe-1.5转录模型、MAI-Voice-2语音生成模型、MAI-Code-1-Flash编程模型和MAI-Image-2.5图像模型。MAI-Thinking-1在SWE-Bench Pro上达到53%,与Opus 4.6并列最强编码基准。MAI-Transcribe-1.5在43种语言上超越Gemini和OpenAI,速度快5倍。MAI-Code-1-Flash仅5B激活参数,SWE-Bench Pro达51%。微软还发布了109页详细技术报告,强调前沿没有捷径,需要严谨、耐心和细节关注。AI产品微软MAI-Thinking-1推理模型编程助手语音模型10 个信源在谈推荐理由:微软一口气推出7款模型,覆盖推理、编码、语音、图像全场景,MAI-Thinking-1在编码基准上追平Opus 4.6,做AI应用开发或模型选型的团队值得关注这份109页技术报告。原文
10:41ElevenLabs@elevenlabsioElevenLabs 在华沙峰会上预览了其最新、最具表现力的 AI 语音模型,并现场演示了语音代理在客户体验中的应用。该模型旨在实现自然、类人交流,被视为解锁 AI 商业价值的关键。演示展示了语音代理如何更流畅地处理客户对话,提升交互真实感。这标志着 AI 语音技术向更自然、更实用方向迈出重要一步。AI产品ElevenLabs语音模型语音代理客户体验AI 峰会推荐理由:做客服系统或语音交互产品的团队,可以直接关注 ElevenLabs 这次演示——更自然的语音代理意味着更低的用户抵触和更高的转化率,值得点开看 demo 效果。原文
04:15Greg Brockman@gdb72°OpenAI 推出全新模型 gpt-realtime-translate,专为实时语音翻译设计。该模型支持 70 多种输入语言,并能将语音直接翻译成 13 种目标语言的语音输出。与通用大模型不同,这是针对特定场景优化的专用模型,已在智能眼镜上运行。这一发布标志着 AI 翻译从文本处理向端到端语音翻译的跨越,对跨国交流、旅游、商务等场景有重大意义。AI产品OpenAI实时翻译语音模型智能眼镜多语言10 个信源在谈推荐理由:实时语音翻译终于有了专用模型,做跨国业务、旅行或智能硬件的团队可以直接用起来,省去多步转写的麻烦。原文
10:48@OpenAIDevs@OpenAIDevsOpenAI 开发者账号宣布将于5月27日在旧金山举办实时语音演示会,邀请开发者展示使用最新语音模型构建的原型和产品。活动面向有趣、实用、有创意且技术上有雄心的项目,优胜者将有机会登台展示、赢取奖品,并被官方账号和社区投票推荐。这是展示实时语音技术应用的好机会,适合正在探索语音交互的开发者参与。AI产品实时语音OpenAI开发者活动语音模型演示会10 个信源在谈推荐理由:做语音交互或实时对话应用的开发者,这是直接向 OpenAI 团队展示作品、获取曝光和反馈的绝佳机会,值得报名试试。原文
18:00Ethan Mollick@emollickOpenAI推出了gpt-realtime-2语音模型,该模型原生处理语音而非转录为文本,因此模型本身的智能水平至关重要。旧版语音模型相当于GPT-4o水平,而新版被形容为“更聪明”,但OpenAI未提供任何基准测试数据。此举意味着语音交互体验将显著提升,但缺乏具体指标也引发了对透明度的讨论。AI模型语音模型gpt-realtime-2OpenAI实时交互2 个信源在谈推荐理由:gpt-realtime-2的发布表明OpenAI在语音AI领域持续迭代,直接提升交互体验。但由于缺乏基准对比,开发者需自行评估其实际性能。原文