AITP
精选全部 AI 动态AI 日报Agent 接入关于更新日志信源提报反馈
登录 / 注册
AITOP
全部 AI 动态
AI 相关资讯全量信息流
全部博客资讯推文论文
全部模型产品行业论文技巧
标签:大模型训练×
6月16日
20:46
AITOP6月16日 20:46
600亿美元买下Cursor,xAI终于拿到了编程工具,但真正值得跟踪的或许不是AI600亿美元买下Cursor,xAI终于拿到了编程工具,但真正值得跟踪的或许不是AI
6月12日
12:57
AITOP6月12日 12:57
Claude代码里藏了个20260612,18个月后的AI记忆革命已经开始倒计时
6月11日
15:28
AITOP6月11日 15:28
1107 vs 303:谷歌悄悄开源了一个“拆打字机”的模型,把大模型速度翻了4倍
15:23
AITOP6月11日 15:23
DiffusionGemma颠覆文本生成?自回归模型的“统治”要结束了
15:07
AITOP6月11日 15:07
每秒1107个token,Google开源的扩散模型为什么能改变本地推理格局?
5月18日
10:36
10:36arXiv cs.LG@Yishun Lu, Junhao Zhang, Zeyu Yang, Wes Armour
精选72°
二阶优化方法能提升大模型训练效率,但计算和存储开销大。Asteria 是一个运行时系统,通过将优化器状态动态分配到 GPU、CPU 和 NVMe 存储,并异步执行逆根计算,解决了这一瓶颈。在单 GPU 的 DGX Spark 上,它支持 1B 参数模型的二阶训练;在多节点 GH200 系统上,它降低了 7B 模型的开销和延迟,加速收敛。研究表明,二阶优化实用化的关键在于运行时层面的状态管理和同步。
论文大模型训练二阶优化运行时系统分布式训练Asteria

推荐理由:Asteria 让二阶优化从理论走向实用,做大模型训练的团队可以大幅降低显存压力,同时保持收敛速度优势,值得关注其开源进展。
原文
精选全部日报登录