二次神经网络中宽度与数据如何塑造泛化缩放定律

How Width and Data Shape Generalization Scaling Laws in Quadratic Neural Networks

精选理由

这篇论文给出了二次网络里参数和样本数怎么影响泛化误差的数学公式,比单纯看数据或算力更深入。

AI 摘要

该论文在二次两层神经网络中,通过ℓ2正则化经验风险最小化,分析了泛化误差随参数数量、样本量和宽度变化的精确表达式。研究发现泛化误差遵循依赖于目标谱结构的数据驱动幂律,并揭示了不同缩放区域间的相图转变,包括插值起始点的特征。实验基于有限样本和结构化数据,为理解特征学习模型的缩放行为提供了理论框架。

AI 翻译 · 中文

该论文在二次两层神经网络中,通过ℓ2正则化经验风险最小化,分析了泛化误差随参数数量、样本量和宽度变化的精确表达式。研究发现泛化误差遵循依赖于目标谱结构的数据驱动幂律,并揭示了不同缩放区域间的相图转变,包括插值起始点的特征。实验基于有限样本和结构化数据,为理解特征学习模型的缩放行为提供了理论框架。

arXiv cs.AIUnderstanding how performance scales jointly with model size and data is a central problem in modern machine learning. Existing theoretical works on scaling laws typically describe generalization as a function of data or