DrPO · AI 话题观测

§ 01综述

DrPO 是近期强化学习（RL）与偏好优化领域涌现的一组方法，核心聚焦于解决训练不稳定、多模态对齐困难等痛点。

2025年6月，腾讯混元团队发布 UniRL —— 一个统一多模态强化学习框架，将文本、图像等模态的 RL 训练整合为统一范式，有望简化多模态模型的对齐流程。

同一团队进一步提出 DRPO（Depth-Regularized Preference Optimization），通过平滑散度正则化改善 LLM 在 RL 阶段的稳定性，缓解了过拟合与奖励黑客问题。

同期，另一篇工作指出“一步生成模型”的偏好优化难题，并推出 DrPO 方法，实现了从多步采样到单步生成的高效迁移，同时保持生成质量。

当前焦点在于如何在不同模型容量和模态下平衡效率与稳定性：DRPO 侧重收敛性，DrPO 侧重推理速度，而 UniRL 则试图提供统一基础。未来观察点包括这些方法在实际部署中的可扩展性，以及能否解决多模态 RL 中固有的冲突反馈问题。

§ 02相关报道04 条在档

§ 03邻近话题