近年来,AI训练数据的质量和来源成为行业焦点。最新的研究与实践表明,相比单纯扩大数据量,数据的信号质量、检查机制以及选择策略正变得更为关键。
- 近期主要进展包括:
- 推理模型关注检查信号:有观点指出,检查信号(如中间验证)而非数据量本身,对提升推理模型效果更为重要(推理模型训练数据新视角:检查信号比数据量更重要)。
- 模型规模与技能习得关系:研究揭示,大型模型能习得小型模型错过的技能,这与训练数据中某些特征的分布和表征有关(研究揭示大模型为何能学会小模型错过的技能)。
- 数据来源合规争议:微软MAI模型的训练数据被曝光,其声称的“仅商业授权”与实际使用数据存在出入,引发对数据合规性的质疑(微软 MAI 模型训练数据曝光,与“仅商业授权”说法不符)。
- 低分模型轨迹的再利用:研究显示,在终端智能体训练中,低分模型产生的轨迹反而可能比高分模型提供更好的训练信号,颠覆了传统直觉(终端智能体训练:低分模型轨迹反而教得更好?)。
当前焦点集中在数据质量与合规性的权衡上。一方面,研究者通过检查信号、物理模拟验证等方式提升数据有效性(如PerfectBit用物理模拟器验证数据),另一方面,数据来源的透明性与版权问题(如Meta被曝使用工程师工作痕迹训练编程AI)持续引发讨论。此外,模型对2022-2023年数据的依赖显示出训练数据的时效性影响。未来需关注数据选择策略(多种质量评分、轨迹筛选)的标准化,以及法规对训练数据使用的明确界定。