GPIC：28万亿像素的开放许可图像数据集，用于视觉生成

精选理由

做视觉生成模型训练的研究者终于有了一个大规模、开放许可、可直接商用的数据集，不用再为版权和合规问题头疼。建议做图像生成、扩散模型或流匹配的团队直接下载使用。

AI 摘要

斯坦福大学发布GPIC（Giant Permissive Image Corpus），一个包含约28万亿像素、1亿训练样本的开放许可图像数据集。所有图像均采用宽松许可，可自由用于研究和商业用途，并经过安全过滤和去重处理。数据集托管在Hugging Face上，附带基准测试协议和像素空间流匹配的参考基线。这为视觉生成模型的可扩展研究提供了稳定、大规模且合规的数据基础。

AI 翻译 · 中文

arXiv cs.AIStudying scalable methods for visual generative modeling requires large, accessible, and stable datasets. We introduce GPIC, a Giant Permissive Image Corpus of approximately 28 trillion pixels. GPIC comprises diverse int…

阅读原文