arXiv cs.AI@Suorong Yang, Hanqi Zhu, Hai Gan, Fangjian Su, Guang Li, Furao Shen, Soujanya Poria精选58现有数据选择方法主要关注“选什么”,但固定选择比例,忽略了动态调整数据量的潜力。本文从优化角度揭示,选择比例会隐式调节正则化效果:低比例增强正则化,高比例保持数据覆盖和优化保真度。为此,提出PODS框架,作为轻量级即插即用模块,在训练中动态调度选择数据量,交替低比例正则化阶段和高比例恢复阶段,平衡效率与泛化。实验表明,PODS可将ImageNet-1k训练成本降低50%且提升准确率,将LLM指令微调加速2倍以上且不损失性能。论文数据选择训练效率正则化即插即用PODS推荐理由:PODS解决了数据选择中“选多少”被忽视的问题,做模型训练优化的团队可以直接集成到现有方法中,无需改动评分指标,值得一试。