从自监督语音模型到混合专家：稳健的反欺骗

精选理由

MoE让反欺骗更强，EER降11.9%

AI 摘要

语音生成技术的进步使合成语音越来越自然，导致欺骗检测更加困难。本研究将自监督语音表示模型转换为混合专家（MoE）架构，替换编码器层的前馈块为多个专家网络，并通过层间门控机制控制专家激活。专家网络能捕获互补的声学模式，同时保留自监督预训练学到的表示。在14个欺骗数据集上的评估显示，宏等错误率（EER）从5.46%降至4.81%，相对提升11.9%。

AI 翻译 · 中文

arXiv cs.AIRecent advances in speech generation have significantly improved the naturalness of synthetic speech, making spoofing detection increasingly challenging. A key limitation of current anti-spoofing systems is their limited…

阅读原文