10:10arXiv cs.AI@Julius Girardin, Emanuele Troiani, Yizhou Xu, Vittorio Erba, Florent Krzakala, Lenka Zdeborová该论文在二次两层神经网络中,通过ℓ2正则化经验风险最小化,分析了泛化误差随参数数量、样本量和宽度变化的精确表达式。研究发现泛化误差遵循依赖于目标谱结构的数据驱动幂律,并揭示了不同缩放区域间的相图转变,包括插值起始点的特征。实验基于有限样本和结构化数据,为理解特征学习模型的缩放行为提供了理论框架。论文Quadratic Neural Networks泛化缩放定律相图正则化幂律推荐理由:这篇论文给出了二次网络里参数和样本数怎么影响泛化误差的数学公式,比单纯看数据或算力更深入。原文
12:14arXiv cs.LG@Ziwen Xu, Haiwen Hong, Linsong Yu, Benglei Cui, Longtao Huang, Hui Xue, Ningyu Zhang该论文系统研究了 LoRA 在 LLM 微调中的参数记忆容量与动态机制,提出了 Parametric Memory Law——一个将损失减少与有效参数和序列长度联系起来的幂律关系。在 token 级别,研究发现预测概率 p > 0.5 是贪心解码下逐字回忆的充分条件,存在确定性相变。基于此,作者提出 MemFT 阈值引导优化策略,动态分配训练预算给低于阈值的 token,实验表明能提升记忆保真度和效率。这项工作首次从定量角度揭示了 LoRA 的记忆极限,对持续学习和知识更新有重要指导意义。论文LoRA参数记忆微调持续学习幂律推荐理由:做 LLM 微调或持续学习的团队,终于有了量化记忆容量的理论工具——MemFT 能直接帮你优化训练预算分配,建议做 LoRA 相关工作的点开看看。原文