12:28arXiv cs.AI@Sathvik Manikantan Napa Ugandhar, Hao Zhang, Alison Gunzler, Yuzhe Wang, Thomas Thebaud, Georgi Tinchev, Venkatesh Ravichandran, Laureano Moro-Velázquez论文提出DyadEE数据集,包含真实情感协调对话和通过交换伴侣、情感重合成制造的干扰对话。同时提出TRACE框架,将双人交互建模为基于情感微调Whisper声学嵌入的有序序列,将每个样本视为交互痕迹而非池化话语。在DyadEE上实验表明,融入对话上下文和关系信息可提升检测效果,TRACE达到97.01%的准确率。论文TRACEDyadEEWhisper情感识别语音交互推荐理由:想研究语音AI如何感知对话中的情感协调?这篇论文提出了新数据集DyadEE和框架TRACE,准确率高达97%,值得做语音交互的朋友看看。原文
12:44arXiv: OpenAI@Martijn Bartelds, Federico Bianchi, James Zou该项研究评估了四个主流实时语音系统——OpenAI GPT Realtime 2、Google Gemini 3.1 Flash Live、Alibaba Qwen3.5 Omni Plus和Omni Flash——在三个需要理解语音语调的场景中的表现。面对哭泣的呼叫者说“没事”、恐惧语气下达的电汇指令、以及明显讽刺的同意,所有系统都依据文字而非语调执行操作。其中三个系统在直接询问时能准确识别悲伤、恐惧或讽刺,但在决策任务中又忽略这些信息。研究还发现系统估计口音和年龄时同样跟随文字偏见而非声学特征。提示词引导仅能部分且不稳定地改善表现。论文GPT Realtime 2Gemini 3.1Qwen3.5 Omni情感识别语音AI10 个信源在谈推荐理由:这篇论文测试了四个主流实时语音AI处理哭泣、恐惧、讽刺时的表现,结果它们能听出情绪却不当回事,甚至误判口音和年龄。用语音AI处理敏感场景要小心。原文