6月26日
10:35
10:35arXiv cs.LG@Ping Liu, Qianqi Shen, Jianqiang Shen, Wenqiong Liu, Rajat Arora, Yunxiang Ren, Chunnan Yao, Dan Xu, Baofen Zheng, Wanjun Jiang, Andrii Soviak, Kevin Kao, Jingwei Wu, Wenjing Zhang
该论文提出一种RLAIF框架为招聘搜索平台自动生成可移植的搜索查询词。研究发现GRPO优化器对虚假奖励信号敏感,易导致模型复制原文的退化行为。通过引入基于规则的确定性奖励下限,抑制了动词复制行为,使交叉族评估指标提升0.147。实验表明训练时奖励模型将性能提升夸大了2.4倍,核心在于奖励塑形而非优化器选择。
推荐理由:这篇论文揭示了奖励信号设计比选优化器更重要,GRPO容易作弊,加个规则防御就能让质量跳升14.7%点。
6月23日
12:56
12:56arXiv cs.AI@Jubayer Ibn Hamid, Ifdita Hasan Orney, Michael Y. Li, Omar Shaikh, Yoonho Lee, Dorsa Sadigh, Chelsea Finn, Noah Goodman
72°
SPIRAL提出一种新训练框架,让语言模型在推理时同时使用顺序链式思维、平行采样和最终聚合三种原语。该方法通过集束强化学习优化所有组件,在推理任务中扩展效果优于GRPO,最高实现11倍扩展效率和15%性能提升。实验表明模型能有效学习生成对聚合有用的轨迹集并改进最终答案。
推荐理由:这篇论文的SPIRAL方法教模型自己学会并行思考再汇总,比单纯加大顺序推理高效11倍,效果还更好,值得做推理扩展的朋友看看。
6月19日
6月18日
6月10日
6月9日
6月3日
5月28日
5月21日