从自监督语音模型到混合专家:稳健的反欺骗

From Self-Supervised Speech Models to Mixture-of-Experts for Robust Anti-Spoofing

精选理由

MoE让反欺骗更强,EER降11.9%

AI 摘要

语音生成技术的进步使合成语音越来越自然,导致欺骗检测更加困难。本研究将自监督语音表示模型转换为混合专家(MoE)架构,替换编码器层的前馈块为多个专家网络,并通过层间门控机制控制专家激活。专家网络能捕获互补的声学模式,同时保留自监督预训练学到的表示。在14个欺骗数据集上的评估显示,宏等错误率(EER)从5.46%降至4.81%,相对提升11.9%。

AI 翻译 · 中文

语音生成技术的进步使合成语音越来越自然,导致欺骗检测更加困难。本研究将自监督语音表示模型转换为混合专家(MoE)架构,替换编码器层的前馈块为多个专家网络,并通过层间门控机制控制专家激活。专家网络能捕获互补的声学模式,同时保留自监督预训练学到的表示。在14个欺骗数据集上的评估显示,宏等错误率(EER)从5.46%降至4.81%,相对提升11.9%。

arXiv cs.AIRecent advances in speech generation have significantly improved the naturalness of synthetic speech, making spoofing detection increasingly challenging. A key limitation of current anti-spoofing systems is their limited