精选理由
这篇论文教你怎么自动筛选高质量训练数据,用CLIP自己迭代过滤,效果比手动搞还好,还不用额外数据。
论文提出一种自举的Self-Filtering方法,通过迭代训练CLIP模型并动态筛选数据混合来提升训练数据质量。该方法在不需要额外数据或预训练模型的情况下,平衡了高置信度干净样本与全分布多样样本。实验表明,经该方法过滤后的视觉语言数据集在下游任务上性能显著提升。该方法避免了传统启发式或依赖参考数据集的局限。
AI 翻译 · 中文
论文提出一种自举的Self-Filtering方法,通过迭代训练CLIP模型并动态筛选数据混合来提升训练数据质量。该方法在不需要额外数据或预训练模型的情况下,平衡了高置信度干净样本与全分布多样样本。实验表明,经该方法过滤后的视觉语言数据集在下游任务上性能显著提升。该方法避免了传统启发式或依赖参考数据集的局限。
The availability of large amounts of clean data is paramount to training neural networks. However, at large scales, manual oversight is impractical, resulting in sizeable datasets that can be very noisy. Attempts to miti…