LLM训练

§ 01综述

LLM训练领域近期涌现多项技术创新，聚焦于效率提升、数据优化与理论基础。一项引人注目的进展是Token Superposition Training，据称可将预训练速度提升2.5倍（Nous Research 提出 Token Superposition Training，LLM 预训练速度提升 2.5 倍）。监督微调方面，Target-SFT 通过目标分布设计统一了不同SFT方法的视角（Target-SFT：通过目标分布设计统一监督微调视角）。数据组织方法STR和SAW被提出用于优化训练数据的排序与筛选（数据组织如何优化LLM训练：STR和SAW方法）。强化学习领域，BASIS方法通过单次采样批量化优势估计提升了推理效率（BASIS：单次采样批量化优势估计，提升LLM推理强化学习效率）。此外，香农视角下的噪声信道模型为LLM容量与缩放定律提供了新解释（香农视角下的LLM容量与缩放定律：噪声信道模型），而DEL损失函数专门针对数值学习改进（DEL：面向大模型数值学习的Digit Entropy Loss）。模拟器Charon则实现了大规模LLM训练与推理的统一细粒度模拟（Charon：大规模LLM训练与推理的统一细粒度模拟器）。当前焦点在于如何平衡训练速度提升与模型质量，以及数据组织方法在实际大规模场景中的验证。未来值得观察这些技术是否能在保持或提升性能的前提下，显著降低训练成本。

§ 02相关报道07 条在档

§ 03邻近话题