腾讯混元发布UniRL：统一多模态强化学习框架

精选理由

多模态模型训练一直面临框架碎片化问题，UniRL用一个RL循环统一了扩散、LLM和VLM，做多模态研究的团队可以直接用开源代码降低实验成本。

AI 摘要

腾讯混元团队推出UniRL，一个面向统一多模态模型的强化学习基础设施。该框架支持扩散模型、流匹配模型、大语言模型（LLM）和视觉语言模型（VLM）的强化学习训练，并同时发布两个新算法：DRPO和Flow-DPPO。UniRL旨在用一个强化学习循环覆盖多种模型类型，简化多模态模型的训练流程。代码已在GitHub开源，为多模态AI研究提供了新的基础设施选择。

AI 翻译 · 中文

Hunyuan🚀Introducing UniRL, an RL infra for unified multimodal models. Together with two new RL algorithms: DRPO and Flow-DPPO. One RL loop across diffusion/flow matching models, LLMs/VLMs, and unified multimodal models👇 Code …

查看原推