arXiv cs.LG@Valentina Njaradi, Clémentine Dominé, Rachel Swanson, Marco Mondelli, Andrew Saxe精选37该论文通过高维分析框架,研究了预训练表征维度对下游线性探测泛化性能的影响。作者将预训练建模为无标签数据的主成分分析,下游任务建模为有标签数据的线性回归,并推导出训练误差和泛化误差的精确表达式。研究发现,当预训练数据充足但下游数据稀缺时,最大压缩的表征最优;而当预训练数据有限时,高维表征泛化更好。论文还量化了无标签数据与有标签数据之间的替代关系,并在自编码器和预训练大语言模型中观察到类似现象。论文预训练表征学习泛化理论线性探测高维分析推荐理由:这篇论文为预训练表征的维度选择提供了理论指导,做迁移学习或模型压缩的研究者可以直接参考其结论来优化训练策略。