AI训练数据不再只靠人类：ModSleuth揭示模型依赖链

精选理由

大模型训练越来越依赖其他模型生成数据，做模型开发或数据工程的团队需要理解这种依赖链——ModSleuth能帮你理清关系，建议点开看看。

AI 摘要

艾伦人工智能研究所发布ModSleuth工具，用于追踪现代大语言模型训练中依赖的其他模型和数据集。研究发现，Olmo 3依赖89个模型和183个数据集，Nemotron 3则依赖273个模型和560个数据集。这表明LLM训练已从纯人类数据转向模型间相互生成、过滤和评估数据的模式。ModSleuth帮助开发者理解模型供应链的复杂性和潜在风险。

AI 翻译 · 中文

Allen AI (Ai2)LLMs are no longer created w/ human data alone. They rely on other models to generate & filter data, evaluate outputs, & guide dev work. So what is a modern LLM built on? Olmo 3 → 89 model + 183 dataset dependenc…

查看原推