论文精选

特征学习神经网络的正则化理论:从核机制到黎曼几何

Canonical Regularisation of Wide Feature-Learning Neural Networks

精选理由

这篇论文解决了特征学习网络缺乏规范正则化理论的痛点,做深度学习理论和正则化研究的学者值得细读——它用黎曼几何统一了核机制和特征学习机制,并给出了可落地的弧岭正则化方案。

AI 摘要

本文研究了宽神经网络在特征学习机制下的正则化问题,指出梯度流训练隐含的正则化偏好在核机制和特征学习机制中存在根本差异。在核机制中,梯度流自然选择岭回归解,而特征学习机制中岭回归会扭曲网络的归纳偏置,尤其损害预训练模型。作者通过公理化方法定义了规范正则化器,并利用黎曼几何推导出特征学习机制下的测地岭正则化。作为实用替代,提出了弧岭正则化,揭示了早停与规范正则化之间的深层联系。实验在图像处理和NLP迁移学习任务上验证了理论。

AI 翻译 · 中文

本文研究了宽神经网络在特征学习机制下的正则化问题,指出梯度流训练隐含的正则化偏好在核机制和特征学习机制中存在根本差异。在核机制中,梯度流自然选择岭回归解,而特征学习机制中岭回归会扭曲网络的归纳偏置,尤其损害预训练模型。作者通过公理化方法定义了规范正则化器,并利用黎曼几何推导出特征学习机制下的测地岭正则化。作为实用替代,提出了弧岭正则化,揭示了早停与规范正则化之间的深层联系。实验在图像处理和NLP迁移学习任务上验证了理论。

arXiv cs.LGWide neural networks in the feature-learning regime drive modern deep learning, and yet they remain far less studied than their kernel-regime counterparts. We consider a critical yet under-explored difference between the