Hugging Face 团队让异步 RL 权重同步带宽成本降低约 100 倍

精选理由

做分布式 RL 训练的团队终于可以告别昂贵的带宽和复杂的基础设施——只需 HTTPS 和一个 Bucket，就能实现跨区域的推理集群同步，建议搞 RL 的开发者直接看原文。

AI 摘要

Hugging Face 科学团队在 TRL 库中实现了一种新的异步强化学习权重同步方法，将每次同步的带宽成本降低约 100 倍。核心洞察是：在 RL 步骤之间，约 99% 的 bf16 权重是比特相同的，只有极少部分发生变化。他们只将变化的元素编码为稀疏 safetensors 文件，通过 Hugging Face Bucket 传输，而不是传输整个权重文件。以 Qwen3-0.6B 为例，每次步骤的传输量从 1.2 GB 降至 20-35 MB。这意味着不再需要共享集群、RDMA、VPN 或跨云 NCCL，只需一个 GPU 和一个 Hugging Face 账号即可进行真正的分离式 RL 训练。

AI 翻译 · 中文

Clement DelangueThe HF science team just made async RL weight sync ~100x cheaper on bandwidth, and you don't need a shared cluster anymore. The problem: every RL step, the trainer typically has to sync fresh weights to the inference…

查看原推