量化超参数迁移与嵌入层学习率的重要性

精选理由

做 LLM 训练调参的团队会关心——嵌入层学习率是 μP 优势的关键，直接放大 SP 的嵌入层学习率就能获得类似效果，值得在实验中验证。

AI 摘要

本文提出一个框架，通过三个指标量化超参数迁移效果：缩放律拟合质量、外推鲁棒性、参数化导致的渐近损失惩罚。研究发现，μP 相比标准参数化（SP）在 AdamW 训练中的优势，主要源于嵌入层学习率的最大化。SP 中嵌入层学习率是瓶颈，导致训练不稳定；将其按宽度因子放大以匹配 μP 可显著平滑训练并改善迁移。此外，权重衰减改善缩放律拟合，但在固定 token-per-parameter 设置下会损害外推鲁棒性。

AI 翻译 · 中文

arXiv cs.AIHyperparameter transfer allows extrapolating optimal optimization hyperparameters from small to large scales, making it critical for training large language models (LLMs). This is done either by fitting a scaling law to …

阅读原文