AudioDER:面向音频大语言模型后训练的推理增强去重数据集

AudioDER: A Deduplication-Enhanced Reasoning Dataset for Post-Training Large Audio-Language Models

精选理由

去重+CoT,提升音频模型推理能力

AI 摘要

AudioDER是一个约19.1万样本的推理导向后训练数据集,覆盖声音、语音和音乐,每个样本包括音频、多选题、四个候选答案、音频描述和思维链推理。基于声学相似性去重提高多样性,并利用Qwen3-30B生成CoT推理解释。在MMAU-mini、MMSU、MMAR等基准上,使用Qwen2-Audio-7B-Instruct后训练持续提升性能。该数据集开源,旨在推动音频推理研究。

AI 翻译 · 中文

AudioDER是一个约19.1万样本的推理导向后训练数据集,覆盖声音、语音和音乐,每个样本包括音频、多选题、四个候选答案、音频描述和思维链推理。基于声学相似性去重提高多样性,并利用Qwen3-30B生成CoT推理解释。在MMAU-mini、MMSU、MMAR等基准上,使用Qwen2-Audio-7B-Instruct后训练持续提升性能。该数据集开源,旨在推动音频推理研究。

arXiv cs.AILarge Audio-Language Models (LALMs) have shown strong performance on a wide range of audio understanding tasks, yet they still struggle with complex audio reasoning. A practical way to improve such capabilities is post-t