论文精选

EVA-Bench:端到端语音智能体评估新框架

EVA-Bench: A New End-to-end Framework for Evaluating Voice Agents

精选理由

做语音智能体或对话系统的团队终于有了一个能同时测准确性和体验感的基准——EVA-Bench 覆盖了企业场景和噪声鲁棒性,直接帮你对比不同架构的优劣,建议点开看看具体指标设计。

AI 摘要

EVA-Bench 是一个全新的端到端评估框架,专门用于测试语音智能体(Voice Agents)在真实对话场景中的表现。它解决了现有基准无法同时模拟动态对话和全面衡量语音特有失败模式的问题。框架包含 213 个企业级场景,并引入两个复合指标:EVA-A(准确性)和 EVA-X(体验),分别评估任务完成度、忠实度、语音保真度以及对话流畅性、简洁性和轮次时机。在 12 个系统上的测试显示,没有系统能同时在两个指标上超过 0.5,且峰值性能与可靠性能差距显著。该框架已开源,为语音智能体的标准化评估提供了新工具。

AI 翻译 · 中文

EVA-Bench 是一个全新的端到端评估框架,专门用于测试语音智能体(Voice Agents)在真实对话场景中的表现。它解决了现有基准无法同时模拟动态对话和全面衡量语音特有失败模式的问题。框架包含 213 个企业级场景,并引入两个复合指标:EVA-A(准确性)和 EVA-X(体验),分别评估任务完成度、忠实度、语音保真度以及对话流畅性、简洁性和轮次时机。在 12 个系统上的测试显示,没有系统能同时在两个指标上超过 0.5,且峰值性能与可靠性能差距显著。该框架已开源,为语音智能体的标准化评估提供了新工具。

arXiv cs.LGVoice agents, artificial intelligence systems that conduct spoken conversations to complete tasks, are increasingly deployed across enterprise applications. However, no existing benchmark jointly addresses two core evalu