MG-ADSGD：加速去中心化随机梯度下降，实现强凸优化最优通信复杂度

精选理由

去中心化学习研究者终于有了理论最优的随机算法——MG-ADSGD同时加速了条件数和网络拓扑的影响，做分布式优化或联邦学习的团队值得关注这个新基准。

AI 摘要

本文提出MG-ADSGD算法，针对强凸优化问题，首次在去中心化随机优化中同时实现加速的κ平方根和网络谱间隙的平方根倒数依赖。该算法结合Nesterov型原始-对偶外推与多轮快速八卦平均，通过将八卦深度与小批量大小耦合，额外通信轮次同时提升共识精度和降低梯度方差。理论分析表明，MG-ADSGD的通信复杂度达到当前最优，包含σ²/(μnε)项和√(κ/(1-β))项，优于现有所有去中心化随机方法。这一突破解决了去中心化随机优化中长期存在的加速难题。

AI 翻译 · 中文

arXiv cs.LGDecentralized stochastic optimization is a fundamental paradigm for large-scale learning over networks, where agents communicate only with their neighbors and no central coordinator is required. For strongly convex probl…

阅读原文