drpo·general

DrPO

别名
首次出现
2026-06-02
最近出现
2026-06-09
累计提及
6
§ 01综述

DrPO 是近期强化学习(RL)与偏好优化领域涌现的一组方法,核心聚焦于解决训练不稳定、多模态对齐困难等痛点。

  • 2025年6月,腾讯混元团队发布 UniRL —— 一个统一多模态强化学习框架,将文本、图像等模态的 RL 训练整合为统一范式,有望简化多模态模型的对齐流程。
  • 同一团队进一步提出 DRPO(Depth-Regularized Preference Optimization),通过平滑散度正则化改善 LLM 在 RL 阶段的稳定性,缓解了过拟合与奖励黑客问题。
  • 同期,另一篇工作指出“一步生成模型”的偏好优化难题,并推出 DrPO 方法,实现了从多步采样到单步生成的高效迁移,同时保持生成质量。
  • 当前焦点在于如何在不同模型容量和模态下平衡效率与稳定性:DRPO 侧重收敛性,DrPO 侧重推理速度,而 UniRL 则试图提供统一基础。未来观察点包括这些方法在实际部署中的可扩展性,以及能否解决多模态 RL 中固有的冲突反馈问题。

    § 02相关报道04 条在档
    1. 01
      腾讯混元开源UniRL:统一多模态强化学习框架
      Hunyuan
    2. 02
      腾讯混元发布UniRL:统一多模态强化学习框架
      Hunyuan
    3. 03
      DRPO:用平滑散度正则化改进LLM强化学习稳定性
      arXiv cs.LG
    4. 04
      DrPO:一步生成模型偏好优化的新方法
      arXiv cs.LG
    § 03邻近话题

    本页综述由 AITOP 基于公开报道整理。原报道版权归各自来源所有。

    /topic/DrPO