LLM后训练

§ 01综述

LLM后训练阶段正从简单的监督微调向更复杂的强化学习对齐演进，以提升模型的指令遵循能力、安全性和鲁棒性。近期，研究者聚焦于解决RL训练中的不稳定与多任务干扰问题。DRPO提出通过平滑散度正则化来稳定强化学习过程，减少奖励黑客和策略崩溃现象，保持模型生成的多样性。同时，Skill-RM 引入智能体技能的概念，构建统一评估框架，使奖励模型能更准确地捕捉不同任务的共性与特性，提升了奖励信号的泛化能力。此外，有工作基于局部扰动理论分析多域RL中的干扰与恢复机制，为理解模型在多个目标间切换时的行为提供了理论基础。当前焦点在于如何设计更稳定的RL算法、更通用的奖励模型，以及如何理论化地分析多任务训练中的干扰。未来观察点包括这些方法在实际部署中的效果，以及它们对模型安全性和可控性的影响。

§ 02相关报道03 条在档

§ 03邻近话题