11:54向阳乔木@vista8精选72°斯坦福大学研究团队发现,当模型规模足够大时,使用未过滤的Common Crawl数据训练效果反而优于经过清洗的数据。在15M小模型上,过滤数据全面领先;但在330M和1B模型上,未过滤数据在充分训练后超越了所有过滤版本。这表明大模型有足够参数空间将噪声与有用信息分离,颠覆了数据清洗越干净越好的传统认知。论文大模型数据清洗Common Crawl斯坦福训练策略推荐理由:这项研究挑战了数据清洗的行业惯例,做大模型训练的团队值得关注——或许可以省下大量清洗成本,直接喂原始数据。原文