精选理由
去中心化学习研究者终于有了理论最优的随机算法——MG-ADSGD同时加速了条件数和网络拓扑的影响,做分布式优化或联邦学习的团队值得关注这个新基准。
本文提出MG-ADSGD算法,针对强凸优化问题,首次在去中心化随机优化中同时实现加速的κ平方根和网络谱间隙的平方根倒数依赖。该算法结合Nesterov型原始-对偶外推与多轮快速八卦平均,通过将八卦深度与小批量大小耦合,额外通信轮次同时提升共识精度和降低梯度方差。理论分析表明,MG-ADSGD的通信复杂度达到当前最优,包含σ²/(μnε)项和√(κ/(1-β))项,优于现有所有去中心化随机方法。这一突破解决了去中心化随机优化中长期存在的加速难题。
AI 翻译 · 中文
本文提出MG-ADSGD算法,针对强凸优化问题,首次在去中心化随机优化中同时实现加速的κ平方根和网络谱间隙的平方根倒数依赖。该算法结合Nesterov型原始-对偶外推与多轮快速八卦平均,通过将八卦深度与小批量大小耦合,额外通信轮次同时提升共识精度和降低梯度方差。理论分析表明,MG-ADSGD的通信复杂度达到当前最优,包含σ²/(μnε)项和√(κ/(1-β))项,优于现有所有去中心化随机方法。这一突破解决了去中心化随机优化中长期存在的加速难题。
Decentralized stochastic optimization is a fundamental paradigm for large-scale learning over networks, where agents communicate only with their neighbors and no central coordinator is required. For strongly convex probl…