crawl·general

Crawl

别名
首次出现
2026-05-22
最近出现
2026-06-06
累计提及
8
§ 01综述

当前,关于大模型训练数据使用的争议持续发酵,尤其是涉及网络爬虫(Crawl)数据的版权问题。近期,微软的MAI模型被曝光使用未授权的网络数据进行训练,与其宣称的“仅商业授权数据”承诺相悖,引发了业界对数据合规性的关注。与此同时,斯坦福大学的一项研究则提出了不同观点:未经过滤的Common Crawl数据集在训练大模型时效果反超了经过清洗的数据,挑战了“数据越干净越好”的传统认知。

近期主要进展

  • 微软MAI模型数据合规问题:据报道,微软的MAI系列模型(如MAI-1、MAI-2)在训练过程中使用了来自Common Crawl等公开爬虫数据的未授权内容,这与微软此前强调的“企业级干净、商业授权数据”承诺不符。具体包括数据集C4和RefinedWeb的部分内容被用于训练,而这些数据可能包含受版权保护的网页。(微软 MAI 模型训练数据曝光,与“仅商业授权”说法不符) (微软MAI模型被曝使用未授权网络数据,与承诺不符)
  • 斯坦福研究质疑数据过滤必要性:斯坦福大学的最新实验发现,直接使用未经过滤的Common Crawl数据训练模型,在某些任务上的表现甚至优于经过严格清洗的数据集。这可能是因为过滤过程无意中移除了某些关键信息,导致模型泛化能力下降。该研究挑战了行业对数据质量的固有认知,引发关于“脏数据”价值的讨论。(斯坦福研究:大模型不怕脏数据,未过滤Common Crawl效果反超)
  • 当前焦点 / 未来观察点

    当前焦点在于:大模型训练的数据来源是否必须严格遵循版权合规?微软的案例表明,即使是顶级企业也难以完全规避网络爬虫数据的版权风险,这可能推动监管加强。而斯坦福的研究则提出另一种可能性:数据“脏”一点或许无妨,甚至可能提升模型能力,这为开源社区提供了新思路。未来需要关注:各大公司是否会调整数据策略以平衡合规性与效果;以及法律上对网络爬虫训练数据的最终界定。
    § 02相关报道03 条在档
    1. 01
      微软 MAI 模型训练数据曝光,与“仅商业授权”说法不符
      IT之家
    2. 02
      微软MAI模型被曝使用未授权网络数据,与承诺不符
      Decoder
    3. 03
      斯坦福研究:大模型不怕脏数据,未过滤Common Crawl效果反超
      向阳乔木
    § 03邻近话题

    本页综述由 AITOP 基于公开报道整理。原报道版权归各自来源所有。

    /topic/Crawl