12:14arXiv cs.LG@Yonghyun Kim, Junwon Lee, Haiwen Xia, Yinghao Ma, Junghyun Koo, Koichi Saito, Yuki Mitsufuji, Chris DonahueTuneJury 是一个面向文本到音乐生成的开放实例级成对奖励模型,基于人类偏好标签(包括竞技场投票、指标对齐偏好、众包成对比较和专家美学评分)训练。它通过简单分数阈值支持数据过滤,在保留测试对和分布外基准上表现良好,并胜过先前的基线。该模型还引入锚定校准方法,以更高的数据效率恢复一致性,并在三种下游应用(推理时最优N采样、DITTO风格潜在优化和专家迭代后训练)中持续提升奖励轴收益。TuneJury 已在 GitHub 发布。论文TuneJury音乐生成多模态偏好对齐奖励模型推荐理由:如果你在搞音乐生成,想用人类偏好来对齐模型,这个开源的奖励模型 TuneJury 可以让你直接拿来用,还附带了三种应用示例,比重新训一个省事多了。原文