实时语音AI：能听见但不会倾听

精选理由

这篇论文测试了四个主流实时语音AI处理哭泣、恐惧、讽刺时的表现，结果它们能听出情绪却不当回事，甚至误判口音和年龄。用语音AI处理敏感场景要小心。

AI 摘要

该项研究评估了四个主流实时语音系统——OpenAI GPT Realtime 2、Google Gemini 3.1 Flash Live、Alibaba Qwen3.5 Omni Plus和Omni Flash——在三个需要理解语音语调的场景中的表现。面对哭泣的呼叫者说“没事”、恐惧语气下达的电汇指令、以及明显讽刺的同意，所有系统都依据文字而非语调执行操作。其中三个系统在直接询问时能准确识别悲伤、恐惧或讽刺，但在决策任务中又忽略这些信息。研究还发现系统估计口音和年龄时同样跟随文字偏见而非声学特征。提示词引导仅能部分且不稳定地改善表现。

AI 翻译 · 中文

arXiv: OpenAISpeech conveys information through both words and vocal delivery. We evaluate four leading production realtime voice systems-OpenAI's GPT Realtime 2, Google's Gemini 3.1 Flash Live, and Alibaba's Qwen3.5 Omni Plus and Om…

IT之家06-24 23:10原文
Mustafa Suleyman06-25 18:05原文
shao__meng06-23 03:45原文
@OpenAIDevs06-23 19:15原文
AI Will06-24 09:07原文
OpenRouter06-24 15:07原文
berryxia06-24 16:50原文
ChatGPT06-24 18:32原文
a16z06-24 19:44原文
Marc Andreessen06-24 19:55原文

阅读原文