分布式训练

§ 01综述

分布式训练是大规模机器学习模型的关键技术，近期在系统优化、通信效率和应用拓展方面涌现多项进展。

系统架构创新：Piper 提出可编程分布式训练系统，将训练策略与运行时解耦，允许开发者灵活定制调度逻辑（Piper：可编程分布式训练系统）；DeepSeek 开源首个面向 MoE 模型的专家并行通信库 DeepEP，提升通信效率（DeepSeek 开源 DeepEP）。另有研究针对运行时波动设计 RRFP 方案，增强流水线并行的鲁棒性（RRFP：应对运行时波动的流水线并行训练新方案）。

通信与资源优化：Hugging Face 团队提出异步 RL 权重同步方法，将带宽成本降低约 100 倍（Hugging Face 团队让异步 RL 权重同步带宽成本降低约 100 倍）；Asteria 通过运行时编排二阶优化，减少训练迭代次数（Asteria：运行时编排二阶优化）；Poolside 发布技术报告，详述其模型工厂的分布式训练细节（Laguna M.1/XS.2 技术报告发布）。

新范式与争议：有工作探索视频生成模型的多专家分布式训练，推理时动态组合专家（视频生成模型新训练方式：多专家分布式训练）；另有一论文指出分布式训练可能被用来规避 AI 暂停条约，并提出检测方法（Whitepill：分布式训练可规避AI暂停条约）；联邦学习场景下，FedTSV 用轨迹 Shapley 值实现公平贡献评估（FedTSV：用轨迹Shapley值实现公平联邦学习）；此外，TorchTPU 使 PyTorch 能在 Google TPU 上原生运行，拓展分布式训练硬件生态（TorchTPU：在Google TPU上原生运行PyTorch）。

当前焦点在于：如何平衡训练效率、资源开销与可扩展性，以及分布式训练在安全治理中的潜在风险。未来，异构硬件适配、通信压缩和自动化调度将成为关键观察点。

§ 02相关报道10 条在档

§ 03邻近话题