Hessian特征向量位移与局部化揭示优化器依赖的训练动态

Characterizing Optimizer-Dependent Training Dynamics Through Hessian Eigenvector Displacement and Localization

精选理由

这篇论文分析了SGD和Adam训练中Hessian特征向量的不同行为,发现Adam会让少量参数主导曲率方向,直观解释了为什么两种优化器训练结果不同。

AI 摘要

该论文研究训练过程中Hessian矩阵领先特征向量的动态演化。作者在多层感知机分类任务上,通过位移和逆参与率两个统计量跟踪特征向量变化。结果显示SGD训练下曲率方向逐渐趋于稳定,而Adam则持续重组特征向量。Adam还表现出局部化现象,少量参数主导领先曲率方向。这些发现揭示了优化器差异对训练轨迹的影响。

AI 翻译 · 中文

该论文研究训练过程中Hessian矩阵领先特征向量的动态演化。作者在多层感知机分类任务上,通过位移和逆参与率两个统计量跟踪特征向量变化。结果显示SGD训练下曲率方向逐渐趋于稳定,而Adam则持续重组特征向量。Adam还表现出局部化现象,少量参数主导领先曲率方向。这些发现揭示了优化器差异对训练轨迹的影响。

arXiv cs.LGHessian spectral properties are a standard tool in analysing neural-network training, with eigenvalues linked to sharpness, generalization, and optimization dynamics. Eigenvalues quantify curvature magnitude, while eigen