预训练(Pretraining)作为大模型的核心技术,近期在数据处理、多模态扩展及安全对齐方面均有重要进展。在数据处理层面,NVIDIA 发布了 Nemotron 代码数据集管道,利用 Streaming、Pandas 和 tiktoken 高效处理大规模代码语料,构建高质量预训练数据(Building a Code Dataset Pipeline from NVIDIA Nemotron Pretraining Code v3 Metadata with Streaming, Pandas, and tiktoken)。在多模态预训练方面,OpenAI 的视频预训练(VPT)技术展示了视频数据可有效教育 AI 掌握 Minecraft 等复杂游戏技能,且仅需少量标注数据即可完成微调,大幅降低了对人工标注的依赖(Video PreTraining (VPT))。同时,OpenAI 在 DALL·E 2 的预训练阶段引入了安全缓解措施,通过在训练过程中过滤有害数据、调整损失函数等方式,从源头减少模型生成不安全内容的倾向(DALL·E 2 Pre-Training Mitigations)。
当前关注点集中于:如何平衡预训练数据的规模与质量,以及如何将安全考量融入预训练流程,而非仅依赖后训练对齐。未来值得观察的方向包括:针对视频、代码等特定领域的预训练范式优化,以及预训练阶段安全机制的通用化设计。