分布式训练·general

分布式训练

别名
首次出现
2026-05-22
最近出现
2026-06-10
累计提及
10
§ 01综述

分布式训练是大规模机器学习模型的关键技术,近期在系统优化、通信效率和应用拓展方面涌现多项进展。

  • 系统架构创新:Piper 提出可编程分布式训练系统,将训练策略与运行时解耦,允许开发者灵活定制调度逻辑(Piper:可编程分布式训练系统);DeepSeek 开源首个面向 MoE 模型的专家并行通信库 DeepEP,提升通信效率(DeepSeek 开源 DeepEP)。另有研究针对运行时波动设计 RRFP 方案,增强流水线并行的鲁棒性(RRFP:应对运行时波动的流水线并行训练新方案)。
  • 通信与资源优化:Hugging Face 团队提出异步 RL 权重同步方法,将带宽成本降低约 100 倍(Hugging Face 团队让异步 RL 权重同步带宽成本降低约 100 倍);Asteria 通过运行时编排二阶优化,减少训练迭代次数(Asteria:运行时编排二阶优化);Poolside 发布技术报告,详述其模型工厂的分布式训练细节(Laguna M.1/XS.2 技术报告发布)。
  • 新范式与争议:有工作探索视频生成模型的多专家分布式训练,推理时动态组合专家(视频生成模型新训练方式:多专家分布式训练);另有一论文指出分布式训练可能被用来规避 AI 暂停条约,并提出检测方法(Whitepill:分布式训练可规避AI暂停条约);联邦学习场景下,FedTSV 用轨迹 Shapley 值实现公平贡献评估(FedTSV:用轨迹Shapley值实现公平联邦学习);此外,TorchTPU 使 PyTorch 能在 Google TPU 上原生运行,拓展分布式训练硬件生态(TorchTPU:在Google TPU上原生运行PyTorch)。
  • 当前焦点在于:如何平衡训练效率、资源开销与可扩展性,以及分布式训练在安全治理中的潜在风险。未来,异构硬件适配、通信压缩和自动化调度将成为关键观察点。

    § 02相关报道10 条在档
    1. 01
      Piper:可编程分布式训练系统,解耦策略与运行时实现
      arXiv: DeepSeek
    2. 02
      视频生成模型新训练方式:多专家分布式训练,推理时组合
      Ate-a-Pi
    3. 03
      FedTSV:用轨迹Shapley值实现公平联邦学习
      arXiv cs.LG
    4. 04
      Hugging Face 团队让异步 RL 权重同步带宽成本降低约 100 倍
      Clement Delangue
    5. 05
      Laguna M.1/XS.2 技术报告发布,Poolside 详解模型工厂与训练细节
      Latent.Space
    6. 06
      Whitepill:分布式训练可规避AI暂停条约,论文提出检测方法
      Marc Andreessen
    7. 07
      RRFP:应对运行时波动的流水线并行训练新方案
      arXiv cs.LG
    8. 08
      Asteria:运行时编排二阶优化,让大模型训练更高效
      arXiv cs.LG
    9. 09
      DeepSeek 开源 DeepEP:首个面向 MoE 模型的 EP 通信库
      DeepSeek: GitHub 新仓库
    10. 10
      TorchTPU:在Google TPU上原生运行PyTorch
      Google Developers Blog
    § 03邻近话题

    本页综述由 AITOP 基于公开报道整理。原报道版权归各自来源所有。

    /topic/%E5%88%86%E5%B8%83%E5%BC%8F%E8%AE%AD%E7%BB%83