CommonCrawl 是互联网抓取数据的公共存储库,广泛用于训练大型语言模型(LLM)。但近期其使用面临版权争议:微软被曝在其 MAI 模型训练中使用了 CommonCrawl 数据,与其承诺的“仅限商业授权、干净数据”不符,引发对数据合法性及版权合规的讨论(微软 MAI 模型训练数据曝光,与“仅商业授权”说法不符、微软MAI模型被曝使用未授权网络数据,与承诺不符)。与此同时,斯坦福大学研究指出,使用未经过滤的 CommonCrawl 数据训练的模型反而在任务表现上优于经过严格清洗的版本,挑战了传统“干净数据”在机器学习中的必要性(斯坦福研究:大模型不怕脏数据,未过滤Common Crawl效果反超)。技术层面,Hugging Face 推荐其 Buckets 工具来高效处理 CommonCrawl 这类大型训练数据集,以简化数据管理流程(CommonCrawl 推荐 Hugging Face Buckets 处理大型训练数据集)。当前焦点在于数据版权合规与模型性能间的平衡——CommonCrawl 提供的海量公开数据既降低了训练成本,也带来未授权使用风险;未来需关注更灵活的许可框架或数据过滤方法,既能规避版权纠纷,又不牺牲模型性能。
№commoncrawl·general
CommonCrawl
别名
- 首次出现
- 2026-05-22
- 最近出现
- 2026-06-06
- 累计提及
- 7
§ 01综述
§ 02相关报道04 条在档
§ 03邻近话题