全部 AI 动态 · AI 热点

6月25日

12:44

12:44

arXiv: OpenAI@Martijn Bartelds, Federico Bianchi, James Zou

该项研究评估了四个主流实时语音系统——OpenAI GPT Realtime 2、Google Gemini 3.1 Flash Live、Alibaba Qwen3.5 Omni Plus和Omni Flash——在三个需要理解语音语调的场景中的表现。面对哭泣的呼叫者说“没事”、恐惧语气下达的电汇指令、以及明显讽刺的同意，所有系统都依据文字而非语调执行操作。其中三个系统在直接询问时能准确识别悲伤、恐惧或讽刺，但在决策任务中又忽略这些信息。研究还发现系统估计口音和年龄时同样跟随文字偏见而非声学特征。提示词引导仅能部分且不稳定地改善表现。

论文 GPT Realtime 2 Gemini 3.1 Qwen3.5 Omni 情感识别语音AI

推荐理由：这篇论文测试了四个主流实时语音AI处理哭泣、恐惧、讽刺时的表现，结果它们能听出情绪却不当回事，甚至误判口音和年龄。用语音AI处理敏感场景要小心。

02:41

02:41

DeepLearning.AI@DeepLearningAI

DeepLearning.AI 发起7天语音AI构建挑战，教你用编码代理自动提醒而不必盯着终端。活动截止日期为6月30日。参与者将学习如何让AI主动呼叫你，解放监控终端的负担。

技巧 DeepLearning.AI 语音AI 编码代理挑战赛

推荐理由：DeepLearning.AI 搞了个7天挑战，教你用语音AI让编码代理自动呼叫你，不用死守终端。活动到6月30日截止，想学赶紧上车。

6月19日

01:32

01:32

DeepLearning.AI@DeepLearningAI

DeepLearning.AI与Vocal Bridge合作举办7天语音AI构建挑战赛，6月23日开始。挑战赛教你构建能自主判断何时给你打电话的智能体，而不是让你一直盯着终端。参与者可加入等待清单，还有实时排行榜和奖品。先修课程是Voice AI课程，可提前准备。

技巧 DeepLearning.AI Vocal Bridge Voice AI 智能体语音AI

推荐理由：DeepLearning.AI和Vocal Bridge搞了个7天挑战赛，教你让智能体主动给你打电话，不用一直盯着终端，6月23号开赛有奖品，想玩语音AI的赶紧加入等待清单。

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

10:41

10:41

Ate-a-Pi@svpino

一家顶尖语音AI提供商宣布将其TTS、STT和LLM的API价格全线降低50%。更吸引人的是，随着用户规模扩大，价格还会进一步下降。这一举措有望推动整个行业降价，对依赖语音AI的开发者来说是个好消息。

AI产品语音AI API降价 TTS STT LLM

推荐理由：语音AI成本直接减半，做语音应用或客服系统的团队现在可以大幅降低运营成本，建议立即评估是否切换或升级服务。

6月2日

10:17

10:17

AI Will@FinanceYF5

GPT Realtime 2.0 的发布被评价为“相当惊人”，因为它解锁了6个月前完全无法实现的17个创业方向。这些想法完全依赖该模型的实时交互能力，涵盖语音、视频、多模态等场景。该模型大幅降低了实时AI应用的开发门槛，可能引发新一轮创业浪潮。对于关注AI产品落地的创业者和开发者，这是值得深入研究的信号。

AI产品 GPT Realtime 2.0 创业实时交互多模态语音AI

推荐理由：GPT Realtime 2.0 把实时AI应用的可行性推到了新高度，做语音/视频交互产品的创业者可以从中找到17个具体方向，建议直接点开看想法列表。

5月21日

07:59

07:59

ElevenLabs@elevenlabsio

ElevenLabs 发布了一个名为“爱因斯坦”的语音 AI 智能体，旨在展示语音 AI 如何提升教育体验。该智能体支持多语言交互，使学习更生动、更具互动性。用户可以通过提供的链接直接体验。这一演示强调了语音 AI 在打破语言障碍、提供个性化学习方面的潜力，尤其适合教育场景。

AI产品语音AI 教育多语言智能体 ElevenLabs

推荐理由：教育工作者和在线学习平台可以直观感受语音 AI 如何让课程更生动、更包容，建议直接试用这个智能体，看看它能否融入你的教学场景。

5月19日

08:42

08:42

岚叔@lufzzliz

研究人员发现一种名为AudioHijack的新型攻击，将恶意指令隐藏在音频波形中，人耳无法察觉，但语音模型会将其作为输入指令处理。攻击成功率在13个主流音频模型中达79%到96%，可让模型搜索敏感信息、下载文件、发送邮件等。传统防御效果有限，常规检测仅降低7%成功率，自我检查也只抓住28%攻击。文章指出，语音AI的“听”与“动手”能力结合，使音频成为新的prompt injection入口，需要默认增加异常检测和工具权限隔离。

AI产品语音AI 安全漏洞 AudioHijack prompt injection 音频攻击

推荐理由：语音AI的安全漏洞正在从文本扩展到音频，做语音助手或音频处理应用的开发者需要警惕，建议立即检查模型输入的安全防护。