Crawl

§ 01综述

当前，关于大模型训练数据使用的争议持续发酵，尤其是涉及网络爬虫（Crawl）数据的版权问题。近期，微软的MAI模型被曝光使用未授权的网络数据进行训练，与其宣称的“仅商业授权数据”承诺相悖，引发了业界对数据合规性的关注。与此同时，斯坦福大学的一项研究则提出了不同观点：未经过滤的Common Crawl数据集在训练大模型时效果反超了经过清洗的数据，挑战了“数据越干净越好”的传统认知。

近期主要进展

微软MAI模型数据合规问题：据报道，微软的MAI系列模型（如MAI-1、MAI-2）在训练过程中使用了来自Common Crawl等公开爬虫数据的未授权内容，这与微软此前强调的“企业级干净、商业授权数据”承诺不符。具体包括数据集C4和RefinedWeb的部分内容被用于训练，而这些数据可能包含受版权保护的网页。(微软 MAI 模型训练数据曝光，与“仅商业授权”说法不符) (微软MAI模型被曝使用未授权网络数据，与承诺不符)

斯坦福研究质疑数据过滤必要性：斯坦福大学的最新实验发现，直接使用未经过滤的Common Crawl数据训练模型，在某些任务上的表现甚至优于经过严格清洗的数据集。这可能是因为过滤过程无意中移除了某些关键信息，导致模型泛化能力下降。该研究挑战了行业对数据质量的固有认知，引发关于“脏数据”价值的讨论。(斯坦福研究：大模型不怕脏数据，未过滤Common Crawl效果反超)

当前焦点 / 未来观察点

当前焦点在于：大模型训练的数据来源是否必须严格遵循版权合规？微软的案例表明，即使是顶级企业也难以完全规避网络爬虫数据的版权风险，这可能推动监管加强。而斯坦福的研究则提出另一种可能性：数据“脏”一点或许无妨，甚至可能提升模型能力，这为开源社区提供了新思路。未来需要关注：各大公司是否会调整数据策略以平衡合规性与效果；以及法律上对网络爬虫训练数据的最终界定。

§ 02相关报道03 条在档

§ 03邻近话题