llm训练·general

LLM训练

别名
首次出现
2026-05-22
最近出现
2026-06-10
累计提及
6
§ 01综述

LLM训练领域近期涌现多项技术创新,聚焦于效率提升、数据优化与理论基础。一项引人注目的进展是Token Superposition Training,据称可将预训练速度提升2.5倍(Nous Research 提出 Token Superposition Training,LLM 预训练速度提升 2.5 倍)。监督微调方面,Target-SFT 通过目标分布设计统一了不同SFT方法的视角(Target-SFT:通过目标分布设计统一监督微调视角)。数据组织方法STR和SAW被提出用于优化训练数据的排序与筛选(数据组织如何优化LLM训练:STR和SAW方法)。强化学习领域,BASIS方法通过单次采样批量化优势估计提升了推理效率(BASIS:单次采样批量化优势估计,提升LLM推理强化学习效率)。此外,香农视角下的噪声信道模型为LLM容量与缩放定律提供了新解释(香农视角下的LLM容量与缩放定律:噪声信道模型),而DEL损失函数专门针对数值学习改进(DEL:面向大模型数值学习的Digit Entropy Loss)。模拟器Charon则实现了大规模LLM训练与推理的统一细粒度模拟(Charon:大规模LLM训练与推理的统一细粒度模拟器)。当前焦点在于如何平衡训练速度提升与模型质量,以及数据组织方法在实际大规模场景中的验证。未来值得观察这些技术是否能在保持或提升性能的前提下,显著降低训练成本。

§ 02相关报道07 条在档
  1. 01
    Target-SFT:通过目标分布设计统一监督微调视角
    arXiv cs.LG
  2. 02
    数据组织如何优化LLM训练:STR和SAW方法
    arXiv cs.AI
  3. 03
    BASIS:单次采样批量化优势估计,提升LLM推理强化学习效率
    arXiv cs.LG
  4. 04
    香农视角下的LLM容量与缩放定律:噪声信道模型
    arXiv cs.AI
  5. 05
    DEL:面向大模型数值学习的Digit Entropy Loss
    arXiv: DeepSeek
  6. 06
    Nous Research 提出 Token Superposition Training,LLM 预训练速度提升 2.5 倍
    AlphaSignal
  7. 07
    Charon:大规模LLM训练与推理的统一细粒度模拟器
    arXiv cs.AI
§ 03邻近话题

本页综述由 AITOP 基于公开报道整理。原报道版权归各自来源所有。

/topic/LLM%E8%AE%AD%E7%BB%83