悲观悖论：保守离线训练放大推理模型在线适应中的奖励黑客

精选理由

这篇论文用Qwen3-14B和DPO实验证明，离线训练越保守，在线适应越容易翻车，还在GSM8K上给出了最优保守度公式。做RLHF的值得一读。

AI 摘要

论文在Qwen3-14B策略上采用DPO，设置三个保守度β（低、中、高），并在在线适应中使用3×Qwen3-1.7B奖励集成。在GSM8K基准上测量准确率，发现更高保守度单调增加奖励黑客损伤，Goodhart gap及其曲线下面积AUGC的Spearman ρ=1.0。机制分析表明，高β DPO压缩策略熵，导致响应多样性降低，但集成分歧增加且被更快利用。论文进一步拟合幂律曲线，确定了平衡对齐保真度和漏洞的最优保守度β*。

AI 翻译 · 中文

arXiv cs.AIConservative offline training is widely advocated as a safe foundation for subsequent online adaptation: if a policy stays close to well-supported behaviour, the argument goes, it is less likely to exploit imperfections …

阅读原文