Rethinking Dataset Distillation: 蒸馏集未必优于核心集

Rethinking Dataset Distillation for Classification: Do Distilled Sets Outperform Coresets?

精选理由

想用数据集蒸馏来压缩训练集?这篇论文告诉你,现有DD方法在ImageNet上不比随机选子集好,还更贵,不如直接用核心集。

AI 摘要

这篇论文基于ImageNet-1K、ImageNet100和ImageNette三个数据集,采用三种训练协议,对七种最新数据集蒸馏(DD)方法与三种核心集选择(CS)策略进行了标准化对比。实验发现,部分DD方法甚至不如随机子集,而最先进的DD方法在大规模数据集上表现与核心集相当或更差。DD方法的构建成本显著高于CS。此外,核心集在数据分布覆盖、代表性和多样性上始终优于蒸馏集。

AI 翻译 · 中文

这篇论文基于ImageNet-1K、ImageNet100和ImageNette三个数据集,采用三种训练协议,对七种最新数据集蒸馏(DD)方法与三种核心集选择(CS)策略进行了标准化对比。实验发现,部分DD方法甚至不如随机子集,而最先进的DD方法在大规模数据集上表现与核心集相当或更差。DD方法的构建成本显著高于CS。此外,核心集在数据分布覆盖、代表性和多样性上始终优于蒸馏集。

arXiv cs.LGDataset distillation (DD) has emerged as a prominent approach in data centric machine learning, aiming to synthesize compact training sets for efficient training by compressing the information in large datasets into a sm