11:32arXiv cs.AI@Harshit Singh, Ayush Pratap Singh, Nityanand Mathur流匹配TTS在部署后无法纠正专有名词的发音错误。FlowEdit通过潜在条件编辑而非权重更新来实现终身适应,并用现代Hopfield网络存储纠正。在涵盖18个语系、312个多语言专有名词的基准上,FlowEdit将目标词音素错误率相对降低92.7%,且通用语音质量不变。每次纠正仅需约15秒(单GPU)。论文FlowEditTTSHopfield Network发音适应多语言专有名词推荐理由:想给TTS模型随时纠正陌生名词发音?FlowEdit用Hopfield网络存记忆,错误率直降92.7%,不用重训练。原文
10:25arXiv cs.AI@Máté Gedeon, Péter Mihajlik低资源语言和垂直领域的对话式语音识别受限于多说话人训练数据稀缺。研究者提出一种数据增强流水线:先由LLM生成带参与者元数据的场景级对话,再将说话人属性映射到TTS语音配置,最后组装成说话人感知的合成对话。在匈牙利语BEA-Dialogue基准上,仅用67小时真实对话加636小时合成数据训练的模型,性能超过用2700小时真实语音训练的零样本模型。该方法适用于任何语言,且LLM生成器选择和合成数据组成对效果影响显著。论文语音识别数据增强低资源语言TTSLLM推荐理由:低资源语言ASR团队终于有了可落地的数据增强方案——用LLM+TTS生成对话数据,效果堪比数倍真实数据。做多说话人语音识别的开发者值得一试,尤其适合匈牙利语等小语种场景。原文