01:21Fei-Fei Li@drfeifei斯坦福大学教授李飞飞团队推出GPIC(Giant Permissive Image Corpus),这是一个专为大规模生成模型设计的视觉生成基准数据集。该数据集包含1亿对VLM标注的图文训练对和100万对基准测试对,总计约28万亿像素。所有数据均完全开放用于研究和商业用途,并集中托管。GPIC旨在解决现有数据集在规模、许可和标注质量上的不足,为视觉生成领域提供标准化评估平台。论文视觉生成基准数据集GPIC李飞飞开放许可推荐理由:做视觉生成模型的研究者终于有了一个大规模、开放许可的标准化基准,可以直接用来训练和评估模型,省去自己收集和清洗数据的麻烦。原文
11:06arXiv cs.AI@Keshigeyan Chandrasegaran, Kyle Sargent, Suchir Agarwal, Michael Jang, Michael Poli, Juan Carlos Niebles, Justin Johnson, Jiajun Wu, Li Fei-Fei精选72°斯坦福大学发布GPIC(Giant Permissive Image Corpus),一个包含约28万亿像素、1亿训练样本的开放许可图像数据集。所有图像均采用宽松许可,可自由用于研究和商业用途,并经过安全过滤和去重处理。数据集托管在Hugging Face上,附带基准测试协议和像素空间流匹配的参考基线。这为视觉生成模型的可扩展研究提供了稳定、大规模且合规的数据基础。论文视觉生成数据集开放许可图像生成斯坦福推荐理由:做视觉生成模型训练的研究者终于有了一个大规模、开放许可、可直接商用的数据集,不用再为版权和合规问题头疼。建议做图像生成、扩散模型或流匹配的团队直接下载使用。原文