IHBench：语音助手中断恢复基准

精选理由

想测语音助手被用户打断后能不能接好活？IHBench专门看这个，比谁恢复得自然、不错步骤。闭源模型比开源稳太多了。

AI 摘要

IHBench评估语音助手在10个企业领域中断后的恢复能力，包含6种中断类型。27个音频语言模型配置来自OpenAI、Google和开源社区。闭源模型在任务完成度上显著优于开源模型，长对话中性能下降慢约3.3倍，且无音频-文本模态差距。人类研究验证了LLM评判的可靠性，交叉分析显示恢复质量是独立能力维度。

AI 翻译 · 中文

arXiv: OpenAIVoice agents deployed in structured workflows (customer service, healthcare scheduling, account management) must handle frequent user interruptions while maintaining progress through multi-step procedures. Existing bench…

kimmonismus06-16 13:55原文
IT之家06-18 00:43原文
Decoder06-19 10:08原文
OpenAI Blog06-16 00:00原文
pandaily06-16 08:08原文
AI Engineer06-16 13:53原文
elvis06-16 19:32原文
@koltregaskes06-16 19:35原文
Gary Marcus06-16 21:01原文
Jim Fan06-16 21:51原文

阅读原文