ℓ_p-SGD/ℓ_p-SGDM：动态p范数优化器提升深度网络泛化

精选理由

做深度学习训练调参的开发者，这个动态p范数方案解决了ℓ₂和ℓ∞范数的极端问题，直接替换SGD就能提升泛化，值得在CIFAR/ImageNet任务上试试。

AI 摘要

现有深度神经网络优化器多基于ℓ₂范数或ℓ∞范数，但两者各有缺陷：ℓ₂范数在高曲率方向占主导，导致低曲率方向更新缓慢；ℓ∞范数在平坦区域易振荡。本文提出动态p值的ℓ_p范数方案，融入SGD和带动量SGD，形成LPSGD和LPSGDM优化器。训练早期用大p（>2）抑制高曲率方向，后期p逐渐降至2实现稳定更新，灵感来自余弦退火策略。理论证明非凸场景下收敛率达O(T^{-1/2})，在CIFAR-10/100和ImageNet-1K上使用VGG-11、ResNet-18/50验证了更好泛化性能。

AI 翻译 · 中文

arXiv cs.LGThe existing optimizers for deep neural networks (DNNs) typically rely on either the $\ell_2$ norm or the $\ell_\infty$ norm, resulting in optimizers that do not adapt well to substantial changes in curvature across para…

阅读原文