12:44arXiv: OpenAI@Martijn Bartelds, Federico Bianchi, James Zou该项研究评估了四个主流实时语音系统——OpenAI GPT Realtime 2、Google Gemini 3.1 Flash Live、Alibaba Qwen3.5 Omni Plus和Omni Flash——在三个需要理解语音语调的场景中的表现。面对哭泣的呼叫者说“没事”、恐惧语气下达的电汇指令、以及明显讽刺的同意,所有系统都依据文字而非语调执行操作。其中三个系统在直接询问时能准确识别悲伤、恐惧或讽刺,但在决策任务中又忽略这些信息。研究还发现系统估计口音和年龄时同样跟随文字偏见而非声学特征。提示词引导仅能部分且不稳定地改善表现。论文GPT Realtime 2Gemini 3.1Qwen3.5 Omni情感识别语音AI10 个信源在谈推荐理由:这篇论文测试了四个主流实时语音AI处理哭泣、恐惧、讽刺时的表现,结果它们能听出情绪却不当回事,甚至误判口音和年龄。用语音AI处理敏感场景要小心。原文
02:41DeepLearning.AI@DeepLearningAIDeepLearning.AI 发起7天语音AI构建挑战,教你用编码代理自动提醒而不必盯着终端。活动截止日期为6月30日。参与者将学习如何让AI主动呼叫你,解放监控终端的负担。技巧DeepLearning.AI语音AI编码代理挑战赛推荐理由:DeepLearning.AI 搞了个7天挑战,教你用语音AI让编码代理自动呼叫你,不用死守终端。活动到6月30日截止,想学赶紧上车。原文
01:32DeepLearning.AI@DeepLearningAIDeepLearning.AI与Vocal Bridge合作举办7天语音AI构建挑战赛,6月23日开始。挑战赛教你构建能自主判断何时给你打电话的智能体,而不是让你一直盯着终端。参与者可加入等待清单,还有实时排行榜和奖品。先修课程是Voice AI课程,可提前准备。技巧DeepLearning.AIVocal BridgeVoice AI智能体语音AI推荐理由:DeepLearning.AI和Vocal Bridge搞了个7天挑战赛,教你让智能体主动给你打电话,不用一直盯着终端,6月23号开赛有奖品,想玩语音AI的赶紧加入等待清单。原文
10:41Ate-a-Pi@svpino一家顶尖语音AI提供商宣布将其TTS、STT和LLM的API价格全线降低50%。更吸引人的是,随着用户规模扩大,价格还会进一步下降。这一举措有望推动整个行业降价,对依赖语音AI的开发者来说是个好消息。AI产品语音AIAPI降价TTSSTTLLM推荐理由:语音AI成本直接减半,做语音应用或客服系统的团队现在可以大幅降低运营成本,建议立即评估是否切换或升级服务。原文
10:17AI Will@FinanceYF5GPT Realtime 2.0 的发布被评价为“相当惊人”,因为它解锁了6个月前完全无法实现的17个创业方向。这些想法完全依赖该模型的实时交互能力,涵盖语音、视频、多模态等场景。该模型大幅降低了实时AI应用的开发门槛,可能引发新一轮创业浪潮。对于关注AI产品落地的创业者和开发者,这是值得深入研究的信号。AI产品GPT Realtime 2.0创业实时交互多模态语音AI1 个信源在谈推荐理由:GPT Realtime 2.0 把实时AI应用的可行性推到了新高度,做语音/视频交互产品的创业者可以从中找到17个具体方向,建议直接点开看想法列表。原文
07:59ElevenLabs@elevenlabsioElevenLabs 发布了一个名为“爱因斯坦”的语音 AI 智能体,旨在展示语音 AI 如何提升教育体验。该智能体支持多语言交互,使学习更生动、更具互动性。用户可以通过提供的链接直接体验。这一演示强调了语音 AI 在打破语言障碍、提供个性化学习方面的潜力,尤其适合教育场景。AI产品语音AI教育多语言智能体ElevenLabs推荐理由:教育工作者和在线学习平台可以直观感受语音 AI 如何让课程更生动、更包容,建议直接试用这个智能体,看看它能否融入你的教学场景。原文
08:42岚叔@lufzzliz研究人员发现一种名为AudioHijack的新型攻击,将恶意指令隐藏在音频波形中,人耳无法察觉,但语音模型会将其作为输入指令处理。攻击成功率在13个主流音频模型中达79%到96%,可让模型搜索敏感信息、下载文件、发送邮件等。传统防御效果有限,常规检测仅降低7%成功率,自我检查也只抓住28%攻击。文章指出,语音AI的“听”与“动手”能力结合,使音频成为新的prompt injection入口,需要默认增加异常检测和工具权限隔离。AI产品语音AI安全漏洞AudioHijackprompt injection音频攻击推荐理由:语音AI的安全漏洞正在从文本扩展到音频,做语音助手或音频处理应用的开发者需要警惕,建议立即检查模型输入的安全防护。原文