全部 AI 动态 · AI 热点

6月25日

11:35

AI Will@FinanceYF5

91°

OpenAI 新语音模型 Bidi 1 首次曝光，支持双向语音交互：用户说话时模型同时监听，中途打断可立刻切换任务。实时翻译能力与上下文记忆均优于现有 Advanced Voice（高级语音模式）。该模型已小范围推送，ChatGPT 设置中可选，气泡变黄色即为 Bidi 1。后续将推出 Codex 版本。

AI模型 Bidi 1 OpenAI 语音模型实时翻译 ChatGPT

推荐理由：OpenAI 出了新语音模型 Bidi 1，你说它听，还能打断换话题，实时翻译也更强，快去 ChatGPT 设置里试试。

原文

11:34

AI Will@FinanceYF5

76°

据TestingCatalog爆料，OpenAI正在测试名为Bidi 1的双向语音模型。该模型支持用户在说话时同时说话并继续监听，可在句子中间来回切换任务。Bidi 1能更好地处理打断和停顿，并保持对话上下文记忆。模型有持续时间上限，但可连续计数到23不暂停。Bidi 1尚未可用，但预计很快登陆ChatGPT和Codex。

AI模型 Bidi 1 OpenAI ChatGPT Codex 语音模型

推荐理由：OpenAI的新语音模型Bidi 1能边听边插话，还能中途换任务，比现在强多了。

原文

6月24日

12:40

12:40IT之家（博客/媒体）

OpenAI 正在 ChatGPT 网页版和 App 中测试双向语音模型 Bidi 1。该模型位于设置中的模型选择器，与标准语音和高级语音并列。Bidi 1 支持双向并行对话：用户可在模型说话时继续说话或打断，模型会立即响应新指令。测试案例中，用户让模型从 1 数到 10，中途打断要求倒数，模型立即执行。

AI模型 OpenAI ChatGPT Bidi 1 语音模型双向对话

推荐理由：ChatGPT 新语音模型 Bidi 1 能边听边回应，你说话时可以随时打断它，反应超快，去试试吧。

原文

01:31

Gary Marcus@GaryMarcus

据传闻，GPT-5.6原定本周发布已推迟，新目标约7月中旬。DeepMind对3.5 Pro当前状态不满意，本月不再发布。OpenAI的Bidi语音模型可能在ChatGPT中本周上线。Claude Sonnet 5已向部分企业客户开放Early Access，被视为过渡方案。

行业 GPT-5.6 DeepMind Claude Sonnet 5 Bidi 语音模型

推荐理由：听说GPT-5.6要延迟到7月了，但OpenAI的Bidi语音模型本周可能就能用，Claude Sonnet 5也开始了企业内测。

原文

6月23日

12:55

AI Breakfast@AiBreakfast

Bland AI 宣布完成1亿美元C轮融资，用于继续训练其语音AI模型，使其能够处理长达45分钟的高风险企业电话对话。该模型旨在应对紧急、高风险的电话场景，而非仅仅优化短时客服通话。Bland AI 声称在这一领域处于领先地位。

行业 Bland 企业级语音AI 融资电话AI 语音模型

推荐理由：Bland AI 刚融了1亿美元，专门训练模型搞定45分钟高难度企业电话，不是那种两分钟客服小把戏。

原文

10:35

arXiv cs.LG@Talia Sternberg, Gallil Maimon, Yossi Adi

该论文分析了来自不同模型族和规模的交错语音文本语言模型，发现它们会在中间层隐式转录语音对应的文本词，其中77%的数据中该文本词出现在Top候选词中。随后模型在文本空间预测下一个词，再转回语音域。研究还表明，交错训练数据和文本LM初始化是诱发该行为的关键，且该行为与口语知识能力相关。

论文 Speech Language Models 交错训练语音模型多模态模型可解释性

推荐理由：这篇论文让你搞懂语音语言模型内部是怎么偷偷把语音转成文本再推理的，分析得很透彻，适合想深入理解多模态模型原理的人。

原文

6月19日

18:35

Together AI@togethercompute

Together AI 上线了 Cartesia Sonic 3.5 语音模型，为开发者提供超过150种语音。通过语音查找器，开发者可以试听和比较这些语音，为实时智能体挑选最合适的角色。选定后可直接在 Together AI 平台部署，简化开发流程。

AI模型 Cartesia Sonic 3.5 Together AI 语音模型实时语音智能体

推荐理由：Together AI 集成了 Cartesia Sonic 3.5，有150多种语音可选，做实时语音智能体可以试试这个新库。

原文

6月17日

03:40

@koltregaskes@koltregaskes

OpenAI即将推出新语音模型GPT-Bidi-1（代号可能变更）。该模型专为生成更自然的语音交互设计。消息最早由Dev Mode服务器报道，目前无具体发布日期。

AI模型 GPT-Bidi-1 OpenAI 语音模型自然语音

推荐理由：OpenAI要发新语音模型GPT-Bidi-1，听说声音超级自然，比现在的好不少！

原文

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

6月12日

13:10

Guillaume Lample (Mistral)@GuillaumeLample

精选73°

Guillaume Lample 宣布推出首个语音模型 Voxtral TTS，该模型在性能上达到业界领先水平，同时大幅降低成本和延迟。它采用新架构，结合自回归生成语义语音令牌与流匹配生成声学令牌。团队还发布了技术报告，详细分享了训练方法和洞察。这标志着语音 AI 领域的重要进展，未来将有更多音频相关成果。

AI模型语音模型 TTS 低成本低延迟 Voxtral

推荐理由：Voxtral TTS 在成本和延迟上显著优于现有方案，做语音合成或实时语音应用的开发者可以直接关注，技术报告也值得细读。

原文

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

02:17

Mustafa Suleyman@mustafasuleyman

微软CEO Mustafa Suleyman在X上宣布，团队正在开发更具表现力的语音模型，并邀请用户通过MAI Playground体验最新版本。该模型旨在让语音交互更自然、情感更丰富，可能应用于智能助手、客服、有声内容等领域。目前模型已在playground.microsoft.ai开放试用，用户可直接感受其表现力提升。

AI产品语音模型微软 MAI Playground 情感表达自然交互

推荐理由：语音交互正在从“能说话”进化到“会表达”，做语音产品、虚拟人、有声内容的团队值得去MAI Playground试一下，感受情感表达的真实度提升。

原文

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

07:47

orange.ai@oran_ge

76°

Google 发布了 Gemini 3.5 Live Translate，一款支持 70 多种语言的实时翻译模型。它能边听边译，仅比说话人慢几秒，并保留语调、节奏和音高。该模型自动滤除噪音，在嘈杂环境中也能使用。Google Translate App 新增「听筒模式」，贴耳即听翻译。开发者可通过 Gemini Live API 和 Google AI Studio 直接调用，且支持自动语言检测。

AI产品实时翻译 Gemini 3.5 Live Translate 语音模型 Google Translate API

推荐理由：做跨语言沟通、实时翻译或语音应用的开发者可以直接调用 API 体验，不用再忍受延迟和机械感——保留语调的翻译让交流更自然。

原文

6月10日

17:03

小互@imxiaohu

78°

Google 发布了 Gemini 3.5 Live Translate，一款支持 70 多种语言的实时翻译模型。该模型能边听边译，仅比说话人慢几秒，同时保留语调、节奏和音高。它还能自动滤除噪音，在嘈杂环境中也能使用。Google Translate App 新增了「听筒模式」，贴耳即可听翻译。开发者可通过 Gemini Live API 和 Google AI Studio 直接调用，并支持自动语言检测。

AI产品实时翻译 Gemini 3.5 语音模型 Google API

推荐理由：实时翻译终于有了「人味」——保留语调节奏，做跨国会议、播客或直播的团队可以直接用 API 集成，体验比传统逐句翻译好太多。

原文

04:00

Google AI@GoogleAI

76°

Google AI 发布了 Gemini 3.5 Live Translate，这是其最新的音频模型，专为实时语音到语音翻译设计。该模型支持超过 70 种语言，能在用户开始说话的同时进行翻译，并流式输出结果，无需等待或停顿。它通过同时接收输入和输出翻译语音，在速度和翻译质量之间做出毫秒级决策，保持对话的流畅自然。此外，模型还能在长时间会话中维持语速、音高和语调，提升用户体验。目前该功能已在 Google Translate 应用的 iOS 和 Android 版本中上线。

AI产品 Gemini 3.5 实时翻译语音模型 Google AI 跨语言沟通

推荐理由：跨语言沟通的痛点终于被解决了——Gemini 3.5 Live Translate 让实时翻译不再有尴尬停顿，经常需要与外语人士交流的团队或个人可以直接在 Google Translate 应用中体验。

原文

01:33

Decoder@Matthias Bastian

Google 发布了 Gemini 3.5 Live Translate，这是一个音频模型，支持超过70种语言的实时语音翻译。系统无需等待句子结束即可连续翻译，并声称能保留说话者的语调、语速和音高。在 Google Meet 中，语言支持从5种跃升至70多种。这标志着实时翻译技术的重要进步，尤其对跨国会议和多语言沟通场景有重大影响。

AI产品实时翻译语音模型 Google Meet Gemini 3.5 多语言

推荐理由：跨国团队和频繁开会的用户终于有了靠谱的实时翻译工具——Gemini 3.5 不仅支持70+语言，还能保留说话者的语气和节奏，建议在 Google Meet 中直接体验。

原文

6月7日

00:59

berryxia@berryxia

精选

mlx-audio v0.4.4 发布，这是其功能最强大的版本，新增了 15 个 TTS、ASR 和 VAD 模型。新模型包括 VoxCPM2、Mega-ASR、Nemotron 3.5 ASR 等，支持 30 种语言、实时语音识别和长文本转录加速。服务器端新增 OpenAI 兼容格式和逐词时间戳功能，所有技术均运行在 Apple Silicon 上。该版本显著提升了 Apple 设备上的音频处理能力，适合开发者集成到本地应用中。

AI产品 mlx-audio TTS/ASR Apple Silicon 语音模型开源/仓库

推荐理由：Apple Silicon 用户终于有了一个本地化的音频处理利器，15 个新模型覆盖 TTS/ASR/VAD，做语音应用或音频工具的开发者可以直接安装测试，尤其关注中文支持效果。

原文

6月6日

19:15

Decoder@Jonathan Kemper

78°

一款名为 Audio Interaction 的新型开源语音模型发布，它能够持续监听音频流，并每 0.4 秒决定是否说话或保持沉默，无需等待录音结束。该模型支持翻译、转录、聊天以及识别日常噪音（如咳嗽），实现了真正的实时交互。与 GPT-4o 或 Qwen3.5-Omni 不同，它在一个流中处理所有任务。代码、模型权重和下载说明已在 GitHub 上以 Apache 2.0 开源许可证发布，训练数据也将随后提供。

AI模型开源/仓库语音模型实时交互 Audio Interaction Apache 2.0

推荐理由：这款模型解决了实时语音交互中“等待录音结束”的痛点，做语音助手或实时翻译的开发者可以直接在 GitHub 上试玩，体验每 0.4 秒的决策能力。

原文

6月5日

05:06

Mustafa Suleyman@mustafasuleyman

76°

微软CEO Mustafa Suleyman在X上宣布发布MAI系列模型，包括MAI-Thinking-1推理模型、MAI-Transcribe-1.5转录模型、MAI-Voice-2语音生成模型、MAI-Code-1-Flash编程模型和MAI-Image-2.5图像模型。MAI-Thinking-1在SWE-Bench Pro上达到53%，与Opus 4.6并列最强编码基准。MAI-Transcribe-1.5在43种语言上超越Gemini和OpenAI，速度快5倍。MAI-Code-1-Flash仅5B激活参数，SWE-Bench Pro达51%。微软还发布了109页详细技术报告，强调前沿没有捷径，需要严谨、耐心和细节关注。

AI产品微软 MAI-Thinking-1 推理模型编程助手语音模型

推荐理由：微软一口气推出7款模型，覆盖推理、编码、语音、图像全场景，MAI-Thinking-1在编码基准上追平Opus 4.6，做AI应用开发或模型选型的团队值得关注这份109页技术报告。

原文

6月2日

10:41

ElevenLabs@elevenlabsio

ElevenLabs 在华沙峰会上预览了其最新、最具表现力的 AI 语音模型，并现场演示了语音代理在客户体验中的应用。该模型旨在实现自然、类人交流，被视为解锁 AI 商业价值的关键。演示展示了语音代理如何更流畅地处理客户对话，提升交互真实感。这标志着 AI 语音技术向更自然、更实用方向迈出重要一步。

AI产品 ElevenLabs 语音模型语音代理客户体验 AI 峰会

推荐理由：做客服系统或语音交互产品的团队，可以直接关注 ElevenLabs 这次演示——更自然的语音代理意味着更低的用户抵触和更高的转化率，值得点开看 demo 效果。

原文

5月30日

04:15

Greg Brockman@gdb

72°

OpenAI 推出全新模型 gpt-realtime-translate，专为实时语音翻译设计。该模型支持 70 多种输入语言，并能将语音直接翻译成 13 种目标语言的语音输出。与通用大模型不同，这是针对特定场景优化的专用模型，已在智能眼镜上运行。这一发布标志着 AI 翻译从文本处理向端到端语音翻译的跨越，对跨国交流、旅游、商务等场景有重大意义。

AI产品 OpenAI 实时翻译语音模型智能眼镜多语言

推荐理由：实时语音翻译终于有了专用模型，做跨国业务、旅行或智能硬件的团队可以直接用起来，省去多步转写的麻烦。

原文

5月25日

06:55

marktechpost@Michal Sutter

精选

上海 AI 实验室 StepFun 于 2026 年 5 月发布 StepAudio 2.5 Realtime，这是一款端到端的实时语音大模型，支持中英文，通过 WebSocket API 连接。该模型在 2026 年 4 月的五项基准测试中均排名第一，包括 80.41 的人类评估分数和 82.18 的副语言理解分数。其特色在于角色扮演特定的 RLHF 训练和副语言理解能力，允许用户自定义角色风格。这标志着语音 AI 在情感和角色模拟方面取得了重要进展。

AI模型语音模型角色扮演 RLHF 副语言理解 StepFun

推荐理由：做语音交互或角色扮演应用的开发者，终于有了一个能理解语气和情绪的端到端模型，建议直接试 API。

原文

5月21日

10:48

@OpenAIDevs@OpenAIDevs

OpenAI 开发者账号宣布将于5月27日在旧金山举办实时语音演示会，邀请开发者展示使用最新语音模型构建的原型和产品。活动面向有趣、实用、有创意且技术上有雄心的项目，优胜者将有机会登台展示、赢取奖品，并被官方账号和社区投票推荐。这是展示实时语音技术应用的好机会，适合正在探索语音交互的开发者参与。

AI产品实时语音 OpenAI 开发者活动语音模型演示会

推荐理由：做语音交互或实时对话应用的开发者，这是直接向 OpenAI 团队展示作品、获取曝光和反馈的绝佳机会，值得报名试试。

原文

5月20日

16:14

16:14IT之家（博客/媒体）

阿里通义千问团队发布Qwen3.5-LiveTranslate-Flash实时语音翻译模型，解决了跨境直播、跨国会议等场景中的延迟、语种覆盖和音色保留三大痛点。该模型支持60种语言输入和29种语言输出，端到端字均延迟仅2.8秒，并具备实时音色克隆功能，能保留说话人原声特征。内置热词引擎可自定义1000个词条，提升专有名词和行业术语的翻译准确性。在FLEURS和CoVoST2基准上，翻译准确率优于主流语音大模型，相比前代Qwen3-LiveTranslate-Flash在延迟和语言覆盖上均有显著提升。

AI模型实时翻译语音模型同声传译音色克隆阿里通义千问

推荐理由：跨境直播、跨国会议和出海团队终于有了低延迟、高语种覆盖的实时同传方案，还能保留说话人原声，做内容出海或智能硬件的开发者可以直接试。

原文

5月12日

18:00

Ethan Mollick@emollick

OpenAI推出了gpt-realtime-2语音模型，该模型原生处理语音而非转录为文本，因此模型本身的智能水平至关重要。旧版语音模型相当于GPT-4o水平，而新版被形容为“更聪明”，但OpenAI未提供任何基准测试数据。此举意味着语音交互体验将显著提升，但缺乏具体指标也引发了对透明度的讨论。

AI模型语音模型 gpt-realtime-2 OpenAI 实时交互

推荐理由：gpt-realtime-2的发布表明OpenAI在语音AI领域持续迭代，直接提升交互体验。但由于缺乏基准对比，开发者需自行评估其实际性能。

原文