训练数据 · AI 话题观测

§ 01综述

近年来，AI训练数据的质量和来源成为行业焦点。最新的研究与实践表明，相比单纯扩大数据量，数据的信号质量、检查机制以及选择策略正变得更为关键。

推理模型关注检查信号：有观点指出，检查信号（如中间验证）而非数据量本身，对提升推理模型效果更为重要（推理模型训练数据新视角：检查信号比数据量更重要）。
模型规模与技能习得关系：研究揭示，大型模型能习得小型模型错过的技能，这与训练数据中某些特征的分布和表征有关（研究揭示大模型为何能学会小模型错过的技能）。
数据来源合规争议：微软MAI模型的训练数据被曝光，其声称的“仅商业授权”与实际使用数据存在出入，引发对数据合规性的质疑（微软 MAI 模型训练数据曝光，与“仅商业授权”说法不符）。
低分模型轨迹的再利用：研究显示，在终端智能体训练中，低分模型产生的轨迹反而可能比高分模型提供更好的训练信号，颠覆了传统直觉（终端智能体训练：低分模型轨迹反而教得更好？）。

当前焦点集中在数据质量与合规性的权衡上。一方面，研究者通过检查信号、物理模拟验证等方式提升数据有效性（如PerfectBit用物理模拟器验证数据），另一方面，数据来源的透明性与版权问题（如Meta被曝使用工程师工作痕迹训练编程AI）持续引发讨论。此外，模型对2022-2023年数据的依赖显示出训练数据的时效性影响。未来需关注数据选择策略（多种质量评分、轨迹筛选）的标准化，以及法规对训练数据使用的明确界定。

§ 02相关报道09 条在档

§ 03邻近话题