Prime Intellect 新开源的 prime-rl 0.6.0,专为训练万亿参数 MoE 模型的强化学习设计。他们在 SWE 任务上用 GLM-5 跑到 131k 序列长度,速度还很快,想了解大规模 RL 训练优化的可以看看。
Prime Intellect 发布了 prime-rl 0.6.0,这是一个用于异步强化学习的开源框架,支持训练万亿参数规模的 Mixture-of-Experts (MoE) 模型。该框架在 SWE 编程任务上训练了 GLM-5 模型,序列长度达到 131k,单步训练时间低于 5 分钟,并实现了 256 个并行 rollout。所有这些性能建立在 28 个 NVIDIA H200 节点上,优化技术包括 FP8 推理、Wide Expert Parallelism、预填充/解码分离以及 3-D 并行(FSDP、EP、CP)。
Prime Intellect 发布了 prime-rl 0.6.0,这是一个用于异步强化学习的开源框架,支持训练万亿参数规模的 Mixture-of-Experts (MoE) 模型。该框架在 SWE 编程任务上训练了 GLM-5 模型,序列长度达到 131k,单步训练时间低于 5 分钟,并实现了 256 个并行 rollout。所有这些性能建立在 28 个 NVIDIA H200 节点上,优化技术包括 FP8 推理、Wide Expert Parallelism、预填充/解码分离以及 3-D 并行(FSDP、EP、CP)。
Prime Intellect has released prime-rl 0.6.0, an open framework for asynchronous reinforcement learning on trillion-parameter Mixture-of-Experts models. It trained GLM-5 on SWE tasks at up to 131k sequence length, with su…