10:15arXiv cs.LG@Shuang Li, Zhihui Zhu, Qiuwei Li该论文分析了Bregman ADMM在非凸线性约束问题上的收敛性,采用两侧相对光滑性假设替代标准Lipschitz梯度条件。该方法适用于矩阵和张量模型中的多项式目标,全局Lipschitz梯度常数可能不存在。论文证明,在不变开状态空间域上,Bregman ADMM的一步迭代定义了光滑原始-对偶不动点映射,其严格鞍点KKT点是不稳定不动点,因此从随机初始化出发以概率零收敛到严格鞍点。结合已有的一阶收敛结果,这给出了极限KKT点几乎必然二阶平稳性。数值实验在分布式矩阵分解和对称张量分解上验证了理论。论文Bregman ADMMKKT优化算法非凸优化分布式优化推荐理由:这篇论文证明了Bregman ADMM在非凸非Lipschitz优化中几乎必然收敛到二阶KKT点,解决了传统方法无法处理多项式目标的问题,对矩阵分解等应用有实际指导意义。原文
11:07arXiv cs.LG@Daniel Csillag, Rodrigo Schuller, Pedro Dall'Antonia, Leonidas Guibas, Luiz Velho, Tiago Novello这篇论文提出了一个新型的泛函梯度下降(FGD)算法,该算法在优化过程中自适应调整泛函梯度的表示,解决了固定近似引入误差的问题。作者证明,在光滑损失条件下该算法收敛到平稳点,在附加Polyak-Lojasiewicz条件时收敛到全局最小值,这是首个在一般环境下具有此类保证的可实现FGD方法。在回归、偏微分方程数值求解和现代计算机视觉任务中,该方法在效率和准确度上均优于固定近似FGD和神经网络基线。AI模型FGD自适应表示优化算法收敛性推荐理由:这篇论文提出了首个可实现的泛函梯度下降算法,能自适应调整梯度表示,理论上有收敛保证,实验上比传统FGD和神经网络更快更准。原文
11:11arXiv cs.LG@Florian Hübler, Thomas Pethick, Suvrit SraMuon和Scion等非欧几里得优化方法在训练Transformer时表现优异,但其理论优势一直未明确。本研究证明在重尾非凸场景(随机梯度p阶中心矩有界,p∈(1,2])下,非欧几里得方法在更强的平稳性度量下达到最优样本复杂度,而欧几里得方法有额外维度依赖。对于m×n矩阵,Muon在核范数下找到ε-稳定点仅需O(min{m,n}Δ1L/ε^2(σ/ε)^{p/(p-1)})个样本,可吸收重尾噪声而无额外维度开销。实验在大型语言模型上验证了理论,并表明其他Schatten几何在某些设置下也可与Muon竞争。论文MuonScion优化算法理论分析非凸优化推荐理由:Muon为何能训练Transformer?原文
09:32arXiv cs.LG@Yiyuan She, Zhaojun Hu, Yifan Sun精选本文提出了一种名为“范围正则化”的新方法,用于联邦学习场景,旨在提升统计精度并促进跨客户端的规律性,从而有利于量化、编码和资源效率。该方法通过识别不同客户端间共享权重的特征,并将个性化特征的权重自适应地聚类到极值(称为极值聚类),解决了传统正则化器因半范数特性和不可分解性带来的理论分析难题。研究者开发了新的非渐近分析技术,用于评估统计精度和模式恢复的可靠性,并提出了利用局部强凸性的快速优化算法以减少迭代复杂度。实验验证了该方法在联邦学习中的有效性和效率,为分布式机器学习提供了新的理论工具。论文联邦学习正则化极值聚类理论分析优化算法推荐理由:联邦学习团队终于有了一个兼顾理论严谨和实际效率的正则化方案——极值聚类能显著提升模型压缩和通信效率,做分布式系统或资源受限场景的开发者可以直接参考实验设置。原文
11:17arXiv cs.LG@Gjorgjina Cenikj, Jakub Kudela, Eva Tuba, Tome Eftimov精选该研究系统评估了算法选择(AS)模型在合成与真实优化场景间的泛化能力。研究使用了BBOB和CEC两个学术基准套件,以及机器人轨迹优化和无人机路径规划两个真实问题集。通过跨基准测试发现,AS模型在学术基准间表现良好,但迁移到真实领域时泛化能力显著下降。研究揭示了当前AS方法在领域特定应用中的鲁棒性挑战,为开发更可靠的实用AS系统提供了方向。论文算法选择泛化能力优化算法机器人轨迹优化无人机路径规划推荐理由:做优化算法选型或自动化机器学习的研究者值得关注——这项研究直接点出了学术基准与真实场景的鸿沟,看完能帮你避开模型部署的坑。原文
11:05arXiv cs.LG@Abdurakhmon Sadiev, Artavazd Maranjyan, Ivan Ilin, Peter Richtárik精选Muon 作为 AdamW 的替代方案在神经网络训练中表现出色,但基于线性最小化预言机(LMO)的方法通常采用同步训练,在异构分布式系统中受限于慢速工作节点。本文提出 Ringmaster LMO,一种异步 LMO 动量方法,借鉴 Ringmaster ASGD 的延迟阈值思想,通过丢弃过时梯度实现最优时间复杂度。该方法在广义 (L0, L1)-光滑性下建立了收敛保证,并开发了参数无关的变体。实验表明,在随机二次问题和 NanoChat 语言模型预训练中,Ringmaster LMO 在异构环境下显著优于同步和异步基线。论文异步训练分布式系统优化算法MuonLMO推荐理由:分布式训练团队终于有了异步 LMO 方法的理论保障——Ringmaster LMO 解决了异构集群中慢节点拖累效率的问题,做大规模预训练或异构系统优化的开发者值得关注。原文
13:36Weights & Biases@weights_biasesAndrej Karpathy 在社交媒体上发布了一条简短但引人深思的推文:“let there be descent”,引用自《创世纪》的“let there be light”变体。这条推文暗示了机器学习中梯度下降(descent)的核心地位,可能是在强调优化算法在AI训练中的根本作用。Karpathy 作为AI领域的重要人物,其言论常引发社区对基础概念的重新思考。这条推文可能是在鼓励开发者回归对优化本质的理解,而非追逐复杂模型。行业梯度下降KarpathyAI训练优化算法社区观点推荐理由:Karpathy 用一句话点醒了AI社区:别光顾着堆模型,梯度下降才是根本。做训练和优化的开发者看完会有感触,值得停下来想想。原文