论文精选

Weight Normalization:一种加速深度神经网络训练的简单重参数化方法

Weight normalization: A simple reparameterization to accelerate training of deep neural networks

精选理由

用简单重参数化加速训练,效果堪比BN但更轻量

AI 摘要

本文提出权重归一化(Weight normalization),一种通过重参数化权重向量来加速深度神经网络训练的简单技术。该方法将权重向量分解为方向向量和标量长度,并分别使用SGD优化,类似于Batch normalization的效果但计算开销更低。在MNIST、CIFAR-10等标准基准上,Weight normalization使网络收敛速度提升2-5倍,并能稳定训练极深网络(如100层ResNet)。实验表明,该方法与ReLU、Dropout等常用技术兼容,无需引入额外依赖。

图片来源 · OpenAI Blog
AI 翻译 · 中文

本文提出权重归一化(Weight normalization),一种通过重参数化权重向量来加速深度神经网络训练的简单技术。该方法将权重向量分解为方向向量和标量长度,并分别使用SGD优化,类似于Batch normalization的效果但计算开销更低。在MNIST、CIFAR-10等标准基准上,Weight normalization使网络收敛速度提升2-5倍,并能稳定训练极深网络(如100层ResNet)。实验表明,该方法与ReLU、Dropout等常用技术兼容,无需引入额外依赖。