12:52arXiv cs.AI@Alex Gichamba, Moise Busogi这篇论文通过控制帧率消融实验,发现神经音频编解码器在6.25 Hz处存在质量悬崖,并排除了音素冲突和码本饱和两种假设。作者指出问题源于固定训练片段时长导致解码器缺乏帧间上下文,而修正后词错误率(WER)在3.1 Hz和1.6 Hz下仍随音素负载平滑下降。研究结果表明,低帧率编解码器的推理效率增益比此前认为的更易实现。论文Neural Audio Codecs低帧率退化音素负载词错误率音频编解码器推荐理由:这篇论文解释了为什么音频编解码器在6.25Hz会突然变差,原来不是理论限制而是训练设置问题,修正后能降到1.6Hz依然可用。原文