论文精选

PODS:振荡式数据量调度,让模型训练更高效

Beyond What to Select: A Plug-and-play Oscillatory Data-Volume Scheduling for Efficient Model Training

精选理由

PODS解决了数据选择中“选多少”被忽视的问题,做模型训练优化的团队可以直接集成到现有方法中,无需改动评分指标,值得一试。

AI 摘要

现有数据选择方法主要关注“选什么”,但固定选择比例,忽略了动态调整数据量的潜力。本文从优化角度揭示,选择比例会隐式调节正则化效果:低比例增强正则化,高比例保持数据覆盖和优化保真度。为此,提出PODS框架,作为轻量级即插即用模块,在训练中动态调度选择数据量,交替低比例正则化阶段和高比例恢复阶段,平衡效率与泛化。实验表明,PODS可将ImageNet-1k训练成本降低50%且提升准确率,将LLM指令微调加速2倍以上且不损失性能。

AI 翻译 · 中文

现有数据选择方法主要关注“选什么”,但固定选择比例,忽略了动态调整数据量的潜力。本文从优化角度揭示,选择比例会隐式调节正则化效果:低比例增强正则化,高比例保持数据覆盖和优化保真度。为此,提出PODS框架,作为轻量级即插即用模块,在训练中动态调度选择数据量,交替低比例正则化阶段和高比例恢复阶段,平衡效率与泛化。实验表明,PODS可将ImageNet-1k训练成本降低50%且提升准确率,将LLM指令微调加速2倍以上且不损失性能。

arXiv cs.AIData selection accelerates training by identifying representative training data while preserving model performance. However, existing methods mainly focus on designing sample-importance criteria, i.e., deciding what to s