精选理由
去重+CoT,提升音频模型推理能力
AudioDER是一个约19.1万样本的推理导向后训练数据集,覆盖声音、语音和音乐,每个样本包括音频、多选题、四个候选答案、音频描述和思维链推理。基于声学相似性去重提高多样性,并利用Qwen3-30B生成CoT推理解释。在MMAU-mini、MMSU、MMAR等基准上,使用Qwen2-Audio-7B-Instruct后训练持续提升性能。该数据集开源,旨在推动音频推理研究。
AI 翻译 · 中文
AudioDER是一个约19.1万样本的推理导向后训练数据集,覆盖声音、语音和音乐,每个样本包括音频、多选题、四个候选答案、音频描述和思维链推理。基于声学相似性去重提高多样性,并利用Qwen3-30B生成CoT推理解释。在MMAU-mini、MMSU、MMAR等基准上,使用Qwen2-Audio-7B-Instruct后训练持续提升性能。该数据集开源,旨在推动音频推理研究。
Large Audio-Language Models (LALMs) have shown strong performance on a wide range of audio understanding tasks, yet they still struggle with complex audio reasoning. A practical way to improve such capabilities is post-t…