分布式训练是大规模机器学习模型的关键技术,近期在系统优化、通信效率和应用拓展方面涌现多项进展。 系统架构创新:Piper 提出可编程分布式训练系统,将训练策略与运行时解耦,允许开发者灵活定制调度逻辑(Piper:可编程分布式训练系统);DeepSeek 开源首个面向 MoE 模型的专家并行通信库 DeepEP,提升通信效率(DeepSeek 开源 DeepEP)。另有研究针对运行时波动设计 RRFP 方案,增强流水线并行的鲁棒性(RRFP:应对运行时波动的流水线并行训练新方案)。 通信与资源优化:Hugging Face 团队提出异步 RL 权重同步方法,将带宽成本降低约 100 倍(Hugging Face 团队让异步 RL 权重同步带宽成本降低约 100 倍);Asteria 通过运行时编排二阶优化,减少训练迭代次数(Asteria:运行时编排二阶优化);Poolside 发布技术报告,详述其模型工厂的分布式训练细节(Laguna M.1/XS.2 技术报告发布)。 新范式与争议:有工作探索视频生成模型的多专家分布式训练,推理时动态组合专家(视频生成模型新训练方式:多专家分布式训练);另有一论文指出分布式训练可能被用来规避 AI 暂停条约,并提出检测方法(Whitepill:分布式训练可规避AI暂停条约);联邦学习场景下,FedTSV 用轨迹 Shapley 值实现公平贡献评估(FedTSV:用轨迹Shapley值实现公平联邦学习);此外,TorchTPU 使 PyTorch 能在 Google TPU 上原生运行,拓展分布式训练硬件生态(TorchTPU:在Google TPU上原生运行PyTorch)。 当前焦点在于:如何平衡训练效率、资源开销与可扩展性,以及分布式训练在安全治理中的潜在风险。未来,异构硬件适配、通信压缩和自动化调度将成为关键观察点。