11:42Ate-a-Pi@svpino72°一位技术博主分享了一种新颖的视频生成模型训练方法,团队没有使用大型互联GPU集群,而是用多个小型、独立的GPU集群分别训练不同的“专家”模型。这些专家模型在训练时无需通信,训练完成后通过一个智能路由器在推理时动态组合,协同工作。这种方法降低了硬件门槛,且效果出色。论文链接已附,值得技术爱好者深入阅读。技巧视频生成分布式训练专家模型推理路由论文推荐理由:这种分布式训练思路颠覆了传统大模型训练范式,做模型训练或视频生成的开发者可以看看论文,或许能启发新的低成本训练方案。原文
22:05Clement Delangue@ClementDelangue精选83°Hugging Face 科学团队在 TRL 库中实现了一种新的异步强化学习权重同步方法,将每次同步的带宽成本降低约 100 倍。核心洞察是:在 RL 步骤之间,约 99% 的 bf16 权重是比特相同的,只有极少部分发生变化。他们只将变化的元素编码为稀疏 safetensors 文件,通过 Hugging Face Bucket 传输,而不是传输整个权重文件。以 Qwen3-0.6B 为例,每次步骤的传输量从 1.2 GB 降至 20-35 MB。这意味着不再需要共享集群、RDMA、VPN 或跨云 NCCL,只需一个 GPU 和一个 Hugging Face 账号即可进行真正的分离式 RL 训练。AI产品强化学习权重同步Hugging FaceTRL分布式训练推荐理由:做分布式 RL 训练的团队终于可以告别昂贵的带宽和复杂的基础设施——只需 HTTPS 和一个 Bucket,就能实现跨区域的推理集群同步,建议搞 RL 的开发者直接看原文。原文
19:46Latent.Space@latentspacepodPoolside 发布了 Laguna M.1 和 Laguna XS.2 的技术报告,详细介绍了模型工厂、预训练数据、分布式训练、后训练、智能体强化学习、量化和评估等关键环节。该报告在 Latent Space 论文俱乐部活动中由 @vibhuuuus 进行解读。这是对开源大模型训练流程的一次深度公开,为研究者和开发者提供了宝贵的实践参考。论文技术报告模型工厂分布式训练智能体强化学习Poolside推荐理由:这份报告把大模型从数据到部署的全链路细节都摊开了,做模型训练或智能体开发的团队可以直接参考其中的 Model Factory 和 Agent RL 实践,值得细读。原文
07:58Marc Andreessen@pmarca精选72°Marc Andreessen转发了一篇关于AI暂停条约漏洞的论文。该论文指出,通过分布式训练,可以在低于所有计算治理阈值的硬件上,利用消费级互联网训练出GPT-4规模的模型,成本低于1亿美元。论文提出了一种检测并阻止此类违规训练的方法。这揭示了现有AI治理框架的重大缺陷,对AI安全监管具有重要警示意义。论文AI安全分布式训练计算治理AI暂停条约论文推荐理由:这篇论文戳穿了AI暂停条约的技术漏洞——分布式训练让监管形同虚设,做AI治理、安全研究的团队值得细看,看完会对现有方案的有效性重新评估。原文