← 首页 / AI 热点日报 / 话题 № crawl · general
Crawl 别名
首次出现 2026-05-22
最近出现 2026-06-06
累计提及 8 § 01 综述
当前,关于大模型训练数据使用的争议持续发酵,尤其是涉及网络爬虫(Crawl)数据的版权问题。近期,微软的MAI模型被曝光使用未授权的网络数据进行训练,与其宣称的“仅商业授权数据”承诺相悖,引发了业界对数据合规性的关注。与此同时,斯坦福大学的一项研究则提出了不同观点:未经过滤的Common Crawl数据集在训练大模型时效果反超了经过清洗的数据,挑战了“数据越干净越好”的传统认知。
近期主要进展
微软MAI模型数据合规问题 :据报道,微软的MAI系列模型(如MAI-1、MAI-2)在训练过程中使用了来自Common Crawl等公开爬虫数据的未授权内容,这与微软此前强调的“企业级干净、商业授权数据”承诺不符。具体包括数据集C4和RefinedWeb的部分内容被用于训练,而这些数据可能包含受版权保护的网页。(微软 MAI 模型训练数据曝光,与“仅商业授权”说法不符 ) (微软MAI模型被曝使用未授权网络数据,与承诺不符 )
斯坦福研究质疑数据过滤必要性 :斯坦福大学的最新实验发现,直接使用未经过滤的Common Crawl数据训练模型,在某些任务上的表现甚至优于经过严格清洗的数据集。这可能是因为过滤过程无意中移除了某些关键信息,导致模型泛化能力下降。该研究挑战了行业对数据质量的固有认知,引发关于“脏数据”价值的讨论。(斯坦福研究:大模型不怕脏数据,未过滤Common Crawl效果反超 )
当前焦点 / 未来观察点
当前焦点在于:大模型训练的数据来源是否必须严格遵循版权合规?微软的案例表明,即使是顶级企业也难以完全规避网络爬虫数据的版权风险,这可能推动监管加强。而斯坦福的研究则提出另一种可能性:数据“脏”一点或许无妨,甚至可能提升模型能力,这为开源社区提供了新思路。未来需要关注:各大公司是否会调整数据策略以平衡合规性与效果;以及法律上对网络爬虫训练数据的最终界定。