精选理由
这篇论文把提示学习从文本拓展到音频端,在11个数据集上验证了效果,代码已开源做少样本音频分类的可以看看。
提出在音频编码器中引入可训练提示(acoustic prompt)以捕获任务特定声学特征,与现有文本端提示学习结合,增强少样本适应能力。在11个数据集上的实验表明,该方法作为即插即用模块可普遍提升性能。显式调制音频表示空间有效补充纯文本提示方法。代码已开源。
AI 翻译 · 中文
提出在音频编码器中引入可训练提示(acoustic prompt)以捕获任务特定声学特征,与现有文本端提示学习结合,增强少样本适应能力。在11个数据集上的实验表明,该方法作为即插即用模块可普遍提升性能。显式调制音频表示空间有效补充纯文本提示方法。代码已开源。
Audio-Language Models (ALMs) have shown remarkable success in zero-shot audio classification by aligning audio waveforms with text. Recent efforts to improve downstream performance focus on learning optimal text prompts.…