全部 AI 动态 · AI 热点

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

6月10日

17:49

17:49

Geek@geekbb

精选72°

腾讯混元团队开源了 UniRL 框架，它将强化学习后训练流程（采样、打分、计算优势、更新策略、同步权重）统一应用于多种多模态模型。该框架同时支持图像/视频扩散模型和自回归语言模型，为多模态 AI 的后训练提供了标准化方案。UniRL 解决了不同模态模型在 RL 后训练中流程不统一、实现复杂的问题，降低了多模态强化学习的门槛。开发者可以直接在 GitHub 上获取代码并尝试。

AI产品腾讯混元 UniRL 强化学习多模态模型开源/仓库

推荐理由：做多模态模型后训练的团队终于有了统一框架——UniRL 把扩散模型和语言模型的 RL 流程标准化了，省去重复造轮子的时间，值得直接上手试。

6月9日

22:19

22:19

Hunyuan@TXhunyuan

72°

腾讯混元团队推出UniRL，一个面向统一多模态模型的强化学习基础设施。该框架支持扩散模型、流匹配模型、大语言模型（LLM）和视觉语言模型（VLM）的强化学习训练，并同时发布两个新算法：DRPO和Flow-DPPO。UniRL旨在用一个强化学习循环覆盖多种模型类型，简化多模态模型的训练流程。代码已在GitHub开源，为多模态AI研究提供了新的基础设施选择。

AI模型强化学习多模态模型开源/仓库腾讯混元 UniRL

推荐理由：多模态模型训练一直面临框架碎片化问题，UniRL用一个RL循环统一了扩散、LLM和VLM，做多模态研究的团队可以直接用开源代码降低实验成本。

22:18

22:18

Hunyuan@TXhunyuan

72°

腾讯混元开源了UniRL，一个统一的多模态强化学习训练框架。它用一个循环（生成→评分→优势计算→更新→同步）覆盖文本、图像、视频等多种模态，模型和算法作为独立轴，实现模型×算法的组合覆盖。内置FlowDPPO和DRPO两种原创算法，分别针对扩散模型和LLM的强化学习优化。支持可插拔的rollout引擎、FSDP2分片和三种部署模式，旨在解决现有RL栈只能处理单一模态的问题。

AI产品腾讯混元 UniRL 多模态强化学习开源/仓库

推荐理由：做多模态RL训练的团队终于有了一个能统一处理文本、图像、视频的框架，不用再为每种模态搭不同的栈。腾讯混元把自家模型验证过的FlowDPPO和DRPO算法也开源了，做扩散模型或LLM RL优化的可以直接拿来用。