11:05arXiv cs.LG@Marcelina Marjankowska, Valerio Modugno, Paolo Barucca该论文研究训练过程中Hessian矩阵领先特征向量的动态演化。作者在多层感知机分类任务上,通过位移和逆参与率两个统计量跟踪特征向量变化。结果显示SGD训练下曲率方向逐渐趋于稳定,而Adam则持续重组特征向量。Adam还表现出局部化现象,少量参数主导领先曲率方向。这些发现揭示了优化器差异对训练轨迹的影响。论文SGDAdamHessian优化器训练动态推荐理由:这篇论文分析了SGD和Adam训练中Hessian特征向量的不同行为,发现Adam会让少量参数主导曲率方向,直观解释了为什么两种优化器训练结果不同。原文