training·general

training

别名
首次出现
2026-05-22
最近出现
2026-06-09
累计提及
123
§ 01综述

近期关于AI模型训练的研究和实践呈现出多元化趋势,核心聚焦于提升效率、降低成本并探索新的训练范式。

在效率提升方面,多项突破性方法被提出。Nous Research 提出的 Token Superposition Training 将LLM预训练速度提升2.5倍(Nous Research 提出 Token Superposition Training,LLM 预训练速度提升 2.5 倍)。同时,SMT(Synchronizing Multi-Token)方法无需循环传播即可预训练RNN,避免了传统RNN的循环依赖(SMT:无需循环传播的RNN预训练方法)。在视觉Transformer领域,清华与阿里联合提出ViT³,通过线性复杂度设计突破注意力机制瓶颈,获得CVPR 2026 Oral(清华与阿里联合论文提出ViT³:线性复杂度视觉Transformer,CVPR 2026 Oral)。此外,还有研究提出Fast-Slow Training,让LLM像人类一样快慢结合持续学习(Fast-Slow Training:让LLM像人类一样快慢结合持续学习)。

在工程实践方面,Harvey法律案例验证了通过路由加微调开源模型可获得更准、更快、更便宜的效果(路由+微调开源模型:更准、更快、更便宜,Harvey 法律案例验证)。Fireworks训练平台扩展支持了GLM 5.1的LoRA RL微调(Fireworks 训练平台扩展:GLM 5.1 LoRA RL 上线)。OpenAI则系统梳理了训练大型神经网络的技术(训练大型神经网络技术),并探索高效训练LM填充中间的方法(高效训练LM填充中间)。

当前焦点在于如何在保证模型质量的前提下,进一步压缩训练成本和时间,尤其关注预训练阶段的创新。未来观察点包括:线性复杂度架构(如ViT³)能否真正替代Transformer、持续学习范式的实用性、以及微调与路由策略在产业中的落地效果。

§ 02相关报道10 条在档
  1. 01
    SMT:无需循环传播的RNN预训练方法
    arXiv cs.AI
  2. 02
    路由+微调开源模型:更准、更快、更便宜,Harvey 法律案例验证
    Clement Delangue
  3. 03
    Nous Research 提出 Token Superposition Training,LLM 预训练速度提升 2.5 倍
    AlphaSignal
  4. 04
    清华与阿里联合论文提出ViT³:线性复杂度视觉Transformer,CVPR 2026 Oral
    pandaily
  5. 05
    Fireworks 训练平台扩展:GLM 5.1 LoRA RL 上线
    Fireworks AI
  6. 06
    Fast-Slow Training:让LLM像人类一样快慢结合持续学习
    arXiv cs.AI
  7. 07
    训练大型神经网络技术
    OpenAI Blog
  8. 08
    高效训练LM填充中间
    OpenAI Blog
  9. 09
    Plex Coffee用ChatGPT实现快速个性化服务
    OpenAI Blog
  10. 10
    飞利浦用ChatGPT培训7万员工AI素养
    OpenAI Blog
§ 03邻近话题

本页综述由 AITOP 基于公开报道整理。原报道版权归各自来源所有。

/topic/training