精选理由
做多模态RL训练的团队终于有了一个能统一处理文本、图像、视频的框架,不用再为每种模态搭不同的栈。腾讯混元把自家模型验证过的FlowDPPO和DRPO算法也开源了,做扩散模型或LLM RL优化的可以直接拿来用。
腾讯混元开源了UniRL,一个统一的多模态强化学习训练框架。它用一个循环(生成→评分→优势计算→更新→同步)覆盖文本、图像、视频等多种模态,模型和算法作为独立轴,实现模型×算法的组合覆盖。内置FlowDPPO和DRPO两种原创算法,分别针对扩散模型和LLM的强化学习优化。支持可插拔的rollout引擎、FSDP2分片和三种部署模式,旨在解决现有RL栈只能处理单一模态的问题。
AI 翻译 · 中文
腾讯混元开源了UniRL,一个统一的多模态强化学习训练框架。它用一个循环(生成→评分→优势计算→更新→同步)覆盖文本、图像、视频等多种模态,模型和算法作为独立轴,实现模型×算法的组合覆盖。内置FlowDPPO和DRPO两种原创算法,分别针对扩散模型和LLM的强化学习优化。支持可插拔的rollout引擎、FSDP2分片和三种部署模式,旨在解决现有RL栈只能处理单一模态的问题。
1、Most RL stacks are built for one modality. UniRL applies a single post-training loop — generate → score → advantage → update → sync — across model families. Model and algorithm are two independent axes, so your coverag…