精选理由
多轮训练效率瓶颈是当前大模型预训练的痛点,q0用群体模型替代单模型精炼,做预训练或数据效率优化的研究者可以直接复现并应用到自己的训练流程中。
随着计算资源增长快于高质量文本供给,多轮训练成为新常态,但单模型在几轮后即饱和。论文提出“超时代预训练”(q0),将多轮预算转化为多样模型群体并聚合预测,达到比单模型更低的验证损失。q0包含三个核心原语:反相关学习率与权重衰减的循环调度、链式蒸馏、以及基于学习先验的模型选择与加权。在1.8B参数模型、100M FineWeb tokens上,q0仅用约56轮就匹配了256轮强集成基线,效率提升约4.6倍,在Slowrun设置下累积数据效率达12.9倍。该方法还给出了不同预算下的最优分配策略,从单轮到最大预算均可适用。
AI 翻译 · 中文
随着计算资源增长快于高质量文本供给,多轮训练成为新常态,但单模型在几轮后即饱和。论文提出“超时代预训练”(q0),将多轮预算转化为多样模型群体并聚合预测,达到比单模型更低的验证损失。q0包含三个核心原语:反相关学习率与权重衰减的循环调度、链式蒸馏、以及基于学习先验的模型选择与加权。在1.8B参数模型、100M FineWeb tokens上,q0仅用约56轮就匹配了256轮强集成基线,效率提升约4.6倍,在Slowrun设置下累积数据效率达12.9倍。该方法还给出了不同预算下的最优分配策略,从单轮到最大预算均可适用。
Multi-epoch training is becoming the standard now that compute is growing faster than the supply of high-quality text. But pretraining a single model saturates within a few passes, long before the compute budget is exhau…