AudioDER：面向音频大语言模型后训练的推理增强去重数据集

精选理由

去重+CoT，提升音频模型推理能力

AI 摘要

AudioDER是一个约19.1万样本的推理导向后训练数据集，覆盖声音、语音和音乐，每个样本包括音频、多选题、四个候选答案、音频描述和思维链推理。基于声学相似性去重提高多样性，并利用Qwen3-30B生成CoT推理解释。在MMAU-mini、MMSU、MMAR等基准上，使用Qwen2-Audio-7B-Instruct后训练持续提升性能。该数据集开源，旨在推动音频推理研究。

AI 翻译 · 中文

arXiv cs.AILarge Audio-Language Models (LALMs) have shown strong performance on a wide range of audio understanding tasks, yet they still struggle with complex audio reasoning. A practical way to improve such capabilities is post-t…

阅读原文