12:44arXiv: OpenAI@Martijn Bartelds, Federico Bianchi, James Zou该项研究评估了四个主流实时语音系统——OpenAI GPT Realtime 2、Google Gemini 3.1 Flash Live、Alibaba Qwen3.5 Omni Plus和Omni Flash——在三个需要理解语音语调的场景中的表现。面对哭泣的呼叫者说“没事”、恐惧语气下达的电汇指令、以及明显讽刺的同意,所有系统都依据文字而非语调执行操作。其中三个系统在直接询问时能准确识别悲伤、恐惧或讽刺,但在决策任务中又忽略这些信息。研究还发现系统估计口音和年龄时同样跟随文字偏见而非声学特征。提示词引导仅能部分且不稳定地改善表现。论文GPT Realtime 2Gemini 3.1Qwen3.5 Omni情感识别语音AI10 个信源在谈推荐理由:这篇论文测试了四个主流实时语音AI处理哭泣、恐惧、讽刺时的表现,结果它们能听出情绪却不当回事,甚至误判口音和年龄。用语音AI处理敏感场景要小心。原文