Prime Intellect 发布 prime-rl 0.6.0，用于训练万亿参数 MoE 模型的智能体 RL

精选理由

Prime Intellect 新开源的 prime-rl 0.6.0，专为训练万亿参数 MoE 模型的强化学习设计。他们在 SWE 任务上用 GLM-5 跑到 131k 序列长度，速度还很快，想了解大规模 RL 训练优化的可以看看。

AI 摘要

Prime Intellect 发布了 prime-rl 0.6.0，这是一个用于异步强化学习的开源框架，支持训练万亿参数规模的 Mixture-of-Experts (MoE) 模型。该框架在 SWE 编程任务上训练了 GLM-5 模型，序列长度达到 131k，单步训练时间低于 5 分钟，并实现了 256 个并行 rollout。所有这些性能建立在 28 个 NVIDIA H200 节点上，优化技术包括 FP8 推理、Wide Expert Parallelism、预填充/解码分离以及 3-D 并行（FSDP、EP、CP）。

Prime Intellect 发布 prime-rl 0.6.0，用于训练万亿参数 MoE 模型的智能体 RL — 图片来源 · marktechpost

AI 翻译 · 中文

marktechpostPrime Intellect has released prime-rl 0.6.0, an open framework for asynchronous reinforcement learning on trillion-parameter Mixture-of-Experts models. It trained GLM-5 on SWE tasks at up to 131k sequence length, with su…

NVIDIA AI06-24 16:03原文
IT之家06-22 13:30原文
techcrunch06-22 16:51原文
lmarena.ai06-23 02:15原文
vLLM06-24 05:13原文
AI Will06-24 09:39原文
berryxia06-24 16:50原文
a16z06-24 19:44原文

阅读原文