精选理由
做视觉生成模型训练的研究者终于有了一个大规模、开放许可、可直接商用的数据集,不用再为版权和合规问题头疼。建议做图像生成、扩散模型或流匹配的团队直接下载使用。
斯坦福大学发布GPIC(Giant Permissive Image Corpus),一个包含约28万亿像素、1亿训练样本的开放许可图像数据集。所有图像均采用宽松许可,可自由用于研究和商业用途,并经过安全过滤和去重处理。数据集托管在Hugging Face上,附带基准测试协议和像素空间流匹配的参考基线。这为视觉生成模型的可扩展研究提供了稳定、大规模且合规的数据基础。
AI 翻译 · 中文
斯坦福大学发布GPIC(Giant Permissive Image Corpus),一个包含约28万亿像素、1亿训练样本的开放许可图像数据集。所有图像均采用宽松许可,可自由用于研究和商业用途,并经过安全过滤和去重处理。数据集托管在Hugging Face上,附带基准测试协议和像素空间流匹配的参考基线。这为视觉生成模型的可扩展研究提供了稳定、大规模且合规的数据基础。
Studying scalable methods for visual generative modeling requires large, accessible, and stable datasets. We introduce GPIC, a Giant Permissive Image Corpus of approximately 28 trillion pixels. GPIC comprises diverse int…