AITP
精选全部 AI 动态AI 日报Agent 接入关于更新日志信源提报反馈
登录 / 注册
AITOP
全部 AI 动态
AI 相关资讯全量信息流
全部博客资讯推文论文
全部模型产品行业论文技巧
标签:偏好优化×
5月14日
01:10
arXiv cs.LG@Enyi Jiang, Wu Sun
45
野火预测面临罕见极端事件和分布漂移的双重挑战,标准模型常因忽视少数类(火灾)而失效。研究者提出环境自适应偏好优化(EAPO)框架,通过k近邻检索构建与目标环境对齐的数据集,再结合监督学习和偏好优化进行混合微调,重点强化对罕见极端事件的识别。在真实野火预测任务中,EAPO在环境变化下达到ROC-AUC 0.7310,显著提升了极端事件的检测能力。该工作为动态环境下的罕见事件预测提供了新思路。
论文野火预测分布漂移偏好优化长尾分布环境自适应

推荐理由:做环境监测或灾害预测的团队,EAPO 解决了分布漂移下罕见事件难检测的痛点,值得在类似长尾预测任务中试试。
5月11日
11:43
arXiv cs.LG(学术论文)
60
本文提出GraphDPO,一种基于有向无环偏好图的直接偏好优化方法,用于语言模型对齐。传统DPO仅利用成对比较,忽略了多轮生成数据中的传递性和结构信息,导致冲突和优化不稳定。GraphDPO通过图结构的Plackett-Luce目标函数聚合邻域监督,强制传递性,并保持线性复杂度。实验表明,在推理和程序合成任务中,GraphDPO优于成对和列表式对齐方法,是一种可扩展且鲁棒的替代方案。
论文偏好优化DPO图结构学习语言模型对齐

推荐理由:该研究从图论视角重新审视偏好对齐,解决了DPO在多响应数据上的局限性,对提升模型训练效率和稳定性具有实际指导意义。