17:49Geek@geekbb精选72°腾讯混元团队开源了 UniRL 框架,它将强化学习后训练流程(采样、打分、计算优势、更新策略、同步权重)统一应用于多种多模态模型。该框架同时支持图像/视频扩散模型和自回归语言模型,为多模态 AI 的后训练提供了标准化方案。UniRL 解决了不同模态模型在 RL 后训练中流程不统一、实现复杂的问题,降低了多模态强化学习的门槛。开发者可以直接在 GitHub 上获取代码并尝试。AI产品腾讯混元UniRL强化学习多模态模型开源/仓库推荐理由:做多模态模型后训练的团队终于有了统一框架——UniRL 把扩散模型和语言模型的 RL 流程标准化了,省去重复造轮子的时间,值得直接上手试。原文
22:19Hunyuan@TXhunyuan72°腾讯混元团队推出UniRL,一个面向统一多模态模型的强化学习基础设施。该框架支持扩散模型、流匹配模型、大语言模型(LLM)和视觉语言模型(VLM)的强化学习训练,并同时发布两个新算法:DRPO和Flow-DPPO。UniRL旨在用一个强化学习循环覆盖多种模型类型,简化多模态模型的训练流程。代码已在GitHub开源,为多模态AI研究提供了新的基础设施选择。AI模型强化学习多模态模型开源/仓库腾讯混元UniRL推荐理由:多模态模型训练一直面临框架碎片化问题,UniRL用一个RL循环统一了扩散、LLM和VLM,做多模态研究的团队可以直接用开源代码降低实验成本。原文
22:18Hunyuan@TXhunyuan72°腾讯混元开源了UniRL,一个统一的多模态强化学习训练框架。它用一个循环(生成→评分→优势计算→更新→同步)覆盖文本、图像、视频等多种模态,模型和算法作为独立轴,实现模型×算法的组合覆盖。内置FlowDPPO和DRPO两种原创算法,分别针对扩散模型和LLM的强化学习优化。支持可插拔的rollout引擎、FSDP2分片和三种部署模式,旨在解决现有RL栈只能处理单一模态的问题。AI产品腾讯混元UniRL多模态强化学习开源/仓库推荐理由:做多模态RL训练的团队终于有了一个能统一处理文本、图像、视频的框架,不用再为每种模态搭不同的栈。腾讯混元把自家模型验证过的FlowDPPO和DRPO算法也开源了,做扩散模型或LLM RL优化的可以直接拿来用。原文