斯坦福研究：大模型不怕脏数据，未过滤Common Crawl效果反超

精选理由

这项研究挑战了数据清洗的行业惯例，做大模型训练的团队值得关注——或许可以省下大量清洗成本，直接喂原始数据。

AI 摘要

斯坦福大学研究团队发现，当模型规模足够大时，使用未过滤的Common Crawl数据训练效果反而优于经过清洗的数据。在15M小模型上，过滤数据全面领先；但在330M和1B模型上，未过滤数据在充分训练后超越了所有过滤版本。这表明大模型有足够参数空间将噪声与有用信息分离，颠覆了数据清洗越干净越好的传统认知。

AI 翻译 · 中文

向阳乔木今天读到斯坦福大学研究团队的一个论文，有点跟直觉不一样。把没过滤的Common Crawl数据喂给大模型，发现计算量足够大时，不过滤数据效果反而比清洗后的数据效果好。在 15M 小模型上，过滤数据全面领先，未过滤的很差。但当模型规模达到 330M 和 1B 时，情况完全反转，未过滤的在充分训练后超越了所有过滤版本。小模型怕垃圾，大模型不怕。模型大，秩（参数量）多，就有足够空间把垃圾和有用信息隔离开。论文解读和原始PDF见评论…

查看原推