AITP
精选全部 AI 动态AI 日报Agent 接入关于更新日志信源提报反馈
登录 / 注册
AITOP
全部 AI 动态
AI 相关资讯全量信息流
全部博客资讯推文论文
全部模型产品行业论文技巧
标签:非凸优化×
6月29日
10:15
10:15arXiv cs.LG@Shuang Li, Zhihui Zhu, Qiuwei Li
该论文分析了Bregman ADMM在非凸线性约束问题上的收敛性,采用两侧相对光滑性假设替代标准Lipschitz梯度条件。该方法适用于矩阵和张量模型中的多项式目标,全局Lipschitz梯度常数可能不存在。论文证明,在不变开状态空间域上,Bregman ADMM的一步迭代定义了光滑原始-对偶不动点映射,其严格鞍点KKT点是不稳定不动点,因此从随机初始化出发以概率零收敛到严格鞍点。结合已有的一阶收敛结果,这给出了极限KKT点几乎必然二阶平稳性。数值实验在分布式矩阵分解和对称张量分解上验证了理论。
论文Bregman ADMMKKT优化算法非凸优化分布式优化

推荐理由:这篇论文证明了Bregman ADMM在非凸非Lipschitz优化中几乎必然收敛到二阶KKT点,解决了传统方法无法处理多项式目标的问题,对矩阵分解等应用有实际指导意义。
原文
6月23日
10:34
10:34arXiv cs.LG@Shengchao Zhao, Yongchao Liu
论文提出VRA-FedSGD算法,针对联邦学习中重尾梯度噪声和通信噪声问题。该算法采用动量方差缩减配合非线性映射减轻重尾梯度噪声,并使用方差缩减聚合机制抑制重尾通信噪声。在非凸目标函数下,均方收敛率为O(K^{-(p-1)/(2p-1)}),其中p为尾指数;在强凸目标函数下,几乎必然收敛率为O~(K^{-(1-1/(p-ε))})。在逻辑回归问题上的仿真实验验证了算法有效性。
论文VRA-FedSGD联邦学习方差缩减重尾噪声非凸优化

推荐理由:这篇论文搞了个VRA-FedSGD,专门对付联邦学习里常见的重尾噪声,收敛速度有理论保证,实验也跑通了,值得看看。
原文
6月16日
20:46
AITOP6月16日 20:46
600亿美元买下Cursor,xAI终于拿到了编程工具,但真正值得跟踪的或许不是AI600亿美元买下Cursor,xAI终于拿到了编程工具,但真正值得跟踪的或许不是AI
6月15日
11:11
11:11arXiv cs.LG@Florian Hübler, Thomas Pethick, Suvrit Sra
Muon和Scion等非欧几里得优化方法在训练Transformer时表现优异,但其理论优势一直未明确。本研究证明在重尾非凸场景(随机梯度p阶中心矩有界,p∈(1,2])下,非欧几里得方法在更强的平稳性度量下达到最优样本复杂度,而欧几里得方法有额外维度依赖。对于m×n矩阵,Muon在核范数下找到ε-稳定点仅需O(min{m,n}Δ1L/ε^2(σ/ε)^{p/(p-1)})个样本,可吸收重尾噪声而无额外维度开销。实验在大型语言模型上验证了理论,并表明其他Schatten几何在某些设置下也可与Muon竞争。
论文MuonScion优化算法理论分析非凸优化

推荐理由:Muon为何能训练Transformer?
原文
6月12日
12:57
AITOP6月12日 12:57
Claude代码里藏了个20260612,18个月后的AI记忆革命已经开始倒计时
6月11日
15:28
AITOP6月11日 15:28
1107 vs 303:谷歌悄悄开源了一个“拆打字机”的模型,把大模型速度翻了4倍
15:23
AITOP6月11日 15:23
DiffusionGemma颠覆文本生成?自回归模型的“统治”要结束了
15:07
AITOP6月11日 15:07
每秒1107个token,Google开源的扩散模型为什么能改变本地推理格局?
5月19日
14:49
14:49arXiv cs.LG@Zijian Liu
精选
现代机器学习优化中常出现重尾梯度噪声,传统方法需梯度裁剪或归一化来保证收敛。本文首次证明 AdaGrad(自适应梯度方法的起源)在非凸优化中,当尾指数 p 满足 4/3 < p ≤ 2 时无需任何算法修改即可收敛,且无需预先知道 p 值。研究还给出了算法相关的下界,表明 AdaGrad 无法达到重尾优化的最优 minimax 速率。对于 AdaGrad-Norm 变体,在额外温和假设下,收敛率可推广到任意 1 < p ≤ 2。
论文AdaGrad重尾噪声收敛性分析非凸优化自适应梯度方法

推荐理由:理论研究者终于有了 AdaGrad 在重尾噪声下的收敛保证,做优化算法分析的人值得关注——它解释了为何 Adam 等自适应方法在真实场景中表现稳健,且无需额外操作。
原文
精选全部日报登录