AI产品精选83°

Hugging Face 团队让异步 RL 权重同步带宽成本降低约 100 倍

The HF science team just made async RL weight sync ~100x cheaper on bandwidth, and you don't need a ...

精选理由

做分布式 RL 训练的团队终于可以告别昂贵的带宽和复杂的基础设施——只需 HTTPS 和一个 Bucket,就能实现跨区域的推理集群同步,建议搞 RL 的开发者直接看原文。

AI 摘要

Hugging Face 科学团队在 TRL 库中实现了一种新的异步强化学习权重同步方法,将每次同步的带宽成本降低约 100 倍。核心洞察是:在 RL 步骤之间,约 99% 的 bf16 权重是比特相同的,只有极少部分发生变化。他们只将变化的元素编码为稀疏 safetensors 文件,通过 Hugging Face Bucket 传输,而不是传输整个权重文件。以 Qwen3-0.6B 为例,每次步骤的传输量从 1.2 GB 降至 20-35 MB。这意味着不再需要共享集群、RDMA、VPN 或跨云 NCCL,只需一个 GPU 和一个 Hugging Face 账号即可进行真正的分离式 RL 训练。

AI 翻译 · 中文

Hugging Face 科学团队在 TRL 库中实现了一种新的异步强化学习权重同步方法,将每次同步的带宽成本降低约 100 倍。核心洞察是:在 RL 步骤之间,约 99% 的 bf16 权重是比特相同的,只有极少部分发生变化。他们只将变化的元素编码为稀疏 safetensors 文件,通过 Hugging Face Bucket 传输,而不是传输整个权重文件。以 Qwen3-0.6B 为例,每次步骤的传输量从 1.2 GB 降至 20-35 MB。这意味着不再需要共享集群、RDMA、VPN 或跨云 NCCL,只需一个 GPU 和一个 Hugging Face 账号即可进行真正的分离式 RL 训练。

Clement DelangueThe HF science team just made async RL weight sync ~100x cheaper on bandwidth, and you don't need a shared cluster anymore. The problem: every RL step, the trainer typically has to sync fresh weights to the inference