全部 AI 动态 · AI 热点

6月25日

11:35

AI Will@FinanceYF5

91°

OpenAI 新语音模型 Bidi 1 首次曝光，支持双向语音交互：用户说话时模型同时监听，中途打断可立刻切换任务。实时翻译能力与上下文记忆均优于现有 Advanced Voice（高级语音模式）。该模型已小范围推送，ChatGPT 设置中可选，气泡变黄色即为 Bidi 1。后续将推出 Codex 版本。

AI模型 Bidi 1 OpenAI 语音模型实时翻译 ChatGPT

推荐理由：OpenAI 出了新语音模型 Bidi 1，你说它听，还能打断换话题，实时翻译也更强，快去 ChatGPT 设置里试试。

原文

11:34

AI Will@FinanceYF5

76°

据TestingCatalog爆料，OpenAI正在测试名为Bidi 1的双向语音模型。该模型支持用户在说话时同时说话并继续监听，可在句子中间来回切换任务。Bidi 1能更好地处理打断和停顿，并保持对话上下文记忆。模型有持续时间上限，但可连续计数到23不暂停。Bidi 1尚未可用，但预计很快登陆ChatGPT和Codex。

AI模型 Bidi 1 OpenAI ChatGPT Codex 语音模型

推荐理由：OpenAI的新语音模型Bidi 1能边听边插话，还能中途换任务，比现在强多了。

原文

6月24日

01:31

Gary Marcus@GaryMarcus

据传闻，GPT-5.6原定本周发布已推迟，新目标约7月中旬。DeepMind对3.5 Pro当前状态不满意，本月不再发布。OpenAI的Bidi语音模型可能在ChatGPT中本周上线。Claude Sonnet 5已向部分企业客户开放Early Access，被视为过渡方案。

行业 GPT-5.6 DeepMind Claude Sonnet 5 Bidi 语音模型

推荐理由：听说GPT-5.6要延迟到7月了，但OpenAI的Bidi语音模型本周可能就能用，Claude Sonnet 5也开始了企业内测。

原文

6月23日

12:55

AI Breakfast@AiBreakfast

Bland AI 宣布完成1亿美元C轮融资，用于继续训练其语音AI模型，使其能够处理长达45分钟的高风险企业电话对话。该模型旨在应对紧急、高风险的电话场景，而非仅仅优化短时客服通话。Bland AI 声称在这一领域处于领先地位。

行业 Bland 企业级语音AI 融资电话AI 语音模型

推荐理由：Bland AI 刚融了1亿美元，专门训练模型搞定45分钟高难度企业电话，不是那种两分钟客服小把戏。

原文

6月19日

18:35

Together AI@togethercompute

Together AI 上线了 Cartesia Sonic 3.5 语音模型，为开发者提供超过150种语音。通过语音查找器，开发者可以试听和比较这些语音，为实时智能体挑选最合适的角色。选定后可直接在 Together AI 平台部署，简化开发流程。

AI模型 Cartesia Sonic 3.5 Together AI 语音模型实时语音智能体

推荐理由：Together AI 集成了 Cartesia Sonic 3.5，有150多种语音可选，做实时语音智能体可以试试这个新库。

原文

6月17日

03:40

@koltregaskes@koltregaskes

OpenAI即将推出新语音模型GPT-Bidi-1（代号可能变更）。该模型专为生成更自然的语音交互设计。消息最早由Dev Mode服务器报道，目前无具体发布日期。

AI模型 GPT-Bidi-1 OpenAI 语音模型自然语音

推荐理由：OpenAI要发新语音模型GPT-Bidi-1，听说声音超级自然，比现在的好不少！

原文

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

6月12日

13:10

Guillaume Lample (Mistral)@GuillaumeLample

精选73°

Guillaume Lample 宣布推出首个语音模型 Voxtral TTS，该模型在性能上达到业界领先水平，同时大幅降低成本和延迟。它采用新架构，结合自回归生成语义语音令牌与流匹配生成声学令牌。团队还发布了技术报告，详细分享了训练方法和洞察。这标志着语音 AI 领域的重要进展，未来将有更多音频相关成果。

AI模型语音模型 TTS 低成本低延迟 Voxtral

推荐理由：Voxtral TTS 在成本和延迟上显著优于现有方案，做语音合成或实时语音应用的开发者可以直接关注，技术报告也值得细读。

原文

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

02:17

Mustafa Suleyman@mustafasuleyman

微软CEO Mustafa Suleyman在X上宣布，团队正在开发更具表现力的语音模型，并邀请用户通过MAI Playground体验最新版本。该模型旨在让语音交互更自然、情感更丰富，可能应用于智能助手、客服、有声内容等领域。目前模型已在playground.microsoft.ai开放试用，用户可直接感受其表现力提升。

AI产品语音模型微软 MAI Playground 情感表达自然交互

推荐理由：语音交互正在从“能说话”进化到“会表达”，做语音产品、虚拟人、有声内容的团队值得去MAI Playground试一下，感受情感表达的真实度提升。

原文

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

07:47

orange.ai@oran_ge

76°

Google 发布了 Gemini 3.5 Live Translate，一款支持 70 多种语言的实时翻译模型。它能边听边译，仅比说话人慢几秒，并保留语调、节奏和音高。该模型自动滤除噪音，在嘈杂环境中也能使用。Google Translate App 新增「听筒模式」，贴耳即听翻译。开发者可通过 Gemini Live API 和 Google AI Studio 直接调用，且支持自动语言检测。

AI产品实时翻译 Gemini 3.5 Live Translate 语音模型 Google Translate API

推荐理由：做跨语言沟通、实时翻译或语音应用的开发者可以直接调用 API 体验，不用再忍受延迟和机械感——保留语调的翻译让交流更自然。

原文

6月10日

17:03

小互@imxiaohu

78°

Google 发布了 Gemini 3.5 Live Translate，一款支持 70 多种语言的实时翻译模型。该模型能边听边译，仅比说话人慢几秒，同时保留语调、节奏和音高。它还能自动滤除噪音，在嘈杂环境中也能使用。Google Translate App 新增了「听筒模式」，贴耳即可听翻译。开发者可通过 Gemini Live API 和 Google AI Studio 直接调用，并支持自动语言检测。

AI产品实时翻译 Gemini 3.5 语音模型 Google API

推荐理由：实时翻译终于有了「人味」——保留语调节奏，做跨国会议、播客或直播的团队可以直接用 API 集成，体验比传统逐句翻译好太多。

原文

04:00

Google AI@GoogleAI

76°

Google AI 发布了 Gemini 3.5 Live Translate，这是其最新的音频模型，专为实时语音到语音翻译设计。该模型支持超过 70 种语言，能在用户开始说话的同时进行翻译，并流式输出结果，无需等待或停顿。它通过同时接收输入和输出翻译语音，在速度和翻译质量之间做出毫秒级决策，保持对话的流畅自然。此外，模型还能在长时间会话中维持语速、音高和语调，提升用户体验。目前该功能已在 Google Translate 应用的 iOS 和 Android 版本中上线。

AI产品 Gemini 3.5 实时翻译语音模型 Google AI 跨语言沟通

推荐理由：跨语言沟通的痛点终于被解决了——Gemini 3.5 Live Translate 让实时翻译不再有尴尬停顿，经常需要与外语人士交流的团队或个人可以直接在 Google Translate 应用中体验。

原文

6月7日

00:59

berryxia@berryxia

精选

mlx-audio v0.4.4 发布，这是其功能最强大的版本，新增了 15 个 TTS、ASR 和 VAD 模型。新模型包括 VoxCPM2、Mega-ASR、Nemotron 3.5 ASR 等，支持 30 种语言、实时语音识别和长文本转录加速。服务器端新增 OpenAI 兼容格式和逐词时间戳功能，所有技术均运行在 Apple Silicon 上。该版本显著提升了 Apple 设备上的音频处理能力，适合开发者集成到本地应用中。

AI产品 mlx-audio TTS/ASR Apple Silicon 语音模型开源/仓库

推荐理由：Apple Silicon 用户终于有了一个本地化的音频处理利器，15 个新模型覆盖 TTS/ASR/VAD，做语音应用或音频工具的开发者可以直接安装测试，尤其关注中文支持效果。

原文

6月5日

05:06

Mustafa Suleyman@mustafasuleyman

76°

微软CEO Mustafa Suleyman在X上宣布发布MAI系列模型，包括MAI-Thinking-1推理模型、MAI-Transcribe-1.5转录模型、MAI-Voice-2语音生成模型、MAI-Code-1-Flash编程模型和MAI-Image-2.5图像模型。MAI-Thinking-1在SWE-Bench Pro上达到53%，与Opus 4.6并列最强编码基准。MAI-Transcribe-1.5在43种语言上超越Gemini和OpenAI，速度快5倍。MAI-Code-1-Flash仅5B激活参数，SWE-Bench Pro达51%。微软还发布了109页详细技术报告，强调前沿没有捷径，需要严谨、耐心和细节关注。

AI产品微软 MAI-Thinking-1 推理模型编程助手语音模型

推荐理由：微软一口气推出7款模型，覆盖推理、编码、语音、图像全场景，MAI-Thinking-1在编码基准上追平Opus 4.6，做AI应用开发或模型选型的团队值得关注这份109页技术报告。

原文

6月2日

10:41

ElevenLabs@elevenlabsio

ElevenLabs 在华沙峰会上预览了其最新、最具表现力的 AI 语音模型，并现场演示了语音代理在客户体验中的应用。该模型旨在实现自然、类人交流，被视为解锁 AI 商业价值的关键。演示展示了语音代理如何更流畅地处理客户对话，提升交互真实感。这标志着 AI 语音技术向更自然、更实用方向迈出重要一步。

AI产品 ElevenLabs 语音模型语音代理客户体验 AI 峰会

推荐理由：做客服系统或语音交互产品的团队，可以直接关注 ElevenLabs 这次演示——更自然的语音代理意味着更低的用户抵触和更高的转化率，值得点开看 demo 效果。

原文

5月30日

04:15

Greg Brockman@gdb

72°

OpenAI 推出全新模型 gpt-realtime-translate，专为实时语音翻译设计。该模型支持 70 多种输入语言，并能将语音直接翻译成 13 种目标语言的语音输出。与通用大模型不同，这是针对特定场景优化的专用模型，已在智能眼镜上运行。这一发布标志着 AI 翻译从文本处理向端到端语音翻译的跨越，对跨国交流、旅游、商务等场景有重大意义。

AI产品 OpenAI 实时翻译语音模型智能眼镜多语言

推荐理由：实时语音翻译终于有了专用模型，做跨国业务、旅行或智能硬件的团队可以直接用起来，省去多步转写的麻烦。

原文

5月21日

10:48

@OpenAIDevs@OpenAIDevs

OpenAI 开发者账号宣布将于5月27日在旧金山举办实时语音演示会，邀请开发者展示使用最新语音模型构建的原型和产品。活动面向有趣、实用、有创意且技术上有雄心的项目，优胜者将有机会登台展示、赢取奖品，并被官方账号和社区投票推荐。这是展示实时语音技术应用的好机会，适合正在探索语音交互的开发者参与。

AI产品实时语音 OpenAI 开发者活动语音模型演示会

推荐理由：做语音交互或实时对话应用的开发者，这是直接向 OpenAI 团队展示作品、获取曝光和反馈的绝佳机会，值得报名试试。

原文

5月12日

18:00

Ethan Mollick@emollick

OpenAI推出了gpt-realtime-2语音模型，该模型原生处理语音而非转录为文本，因此模型本身的智能水平至关重要。旧版语音模型相当于GPT-4o水平，而新版被形容为“更聪明”，但OpenAI未提供任何基准测试数据。此举意味着语音交互体验将显著提升，但缺乏具体指标也引发了对透明度的讨论。

AI模型语音模型 gpt-realtime-2 OpenAI 实时交互

推荐理由：gpt-realtime-2的发布表明OpenAI在语音AI领域持续迭代，直接提升交互体验。但由于缺乏基准对比，开发者需自行评估其实际性能。

原文