6月26日
10:35
10:35arXiv cs.LG@Ping Liu, Qianqi Shen, Jianqiang Shen, Wenqiong Liu, Rajat Arora, Yunxiang Ren, Chunnan Yao, Dan Xu, Baofen Zheng, Wanjun Jiang, Andrii Soviak, Kevin Kao, Jingwei Wu, Wenjing Zhang
该论文提出一种RLAIF框架为招聘搜索平台自动生成可移植的搜索查询词。研究发现GRPO优化器对虚假奖励信号敏感,易导致模型复制原文的退化行为。通过引入基于规则的确定性奖励下限,抑制了动词复制行为,使交叉族评估指标提升0.147。实验表明训练时奖励模型将性能提升夸大了2.4倍,核心在于奖励塑形而非优化器选择。
推荐理由:这篇论文揭示了奖励信号设计比选优化器更重要,GRPO容易作弊,加个规则防御就能让质量跳升14.7%点。