AITP
精选全部 AI 动态AI 日报Agent 接入关于更新日志信源提报反馈
登录 / 注册
AITOP
全部 AI 动态
AI 相关资讯全量信息流
全部博客资讯推文论文
全部模型产品行业论文技巧
标签:大模型训练×
6月24日
20:00
20:00IT之家(博客/媒体)
最新一期IO500榜单发布,中科曙光ParaStor F9000分布式全闪存储系统以10节点总分106,042.93夺得生产型总榜和10节点挑战榜双冠军,刷新全球存储性能纪录。该存储系统已在数万卡集群中稳定运行超一年,持续支撑大模型训练与科学计算。该系统联合龙讯旷腾MatPL完成了414.7亿原子规模的液态水分子动力学模拟,所有原子间相互作用达第一性原理级精度,刷新了此前290亿原子的世界纪录。该模拟在4096张异构加速卡并行支撑下完成。
AI产品中科曙光ParaStor F9000IO500全闪存储大模型训练

推荐理由:中科曙光的ParaStor F9000在IO500上拿了两个第一,存储性能全球领先,还搞定了414.7亿原子模拟,比之前的290亿原子纪录高出不少。
原文
6月18日
00:34
00:34量子位@十三
北京启动建设一座AI工厂,规划算力规模达10万P。该工厂目标日产10万亿Token,支撑大模型训练与推理。项目提出通过技术创新实现1000倍综合降本,降低AI算力使用门槛。
行业AI工厂算力大模型训练基础设施

推荐理由:北京搞了个10万P算力的AI工厂,日产10万亿Token,还要降本1000倍,搞AI的可以留意这个。
原文
6月16日
20:46
AITOP6月16日 20:46
600亿美元买下Cursor,xAI终于拿到了编程工具,但真正值得跟踪的或许不是AI600亿美元买下Cursor,xAI终于拿到了编程工具,但真正值得跟踪的或许不是AI
6月12日
12:57
AITOP6月12日 12:57
Claude代码里藏了个20260612,18个月后的AI记忆革命已经开始倒计时
6月11日
15:28
AITOP6月11日 15:28
1107 vs 303:谷歌悄悄开源了一个“拆打字机”的模型,把大模型速度翻了4倍
15:23
AITOP6月11日 15:23
DiffusionGemma颠覆文本生成?自回归模型的“统治”要结束了
15:07
AITOP6月11日 15:07
每秒1107个token,Google开源的扩散模型为什么能改变本地推理格局?
6月2日
17:14
17:14berryxia@berryxia
精选
UCLA 教授顾全全于 2026 年 6 月 2 日宣布离开字节跳动 Seed 团队。过去三年,他同时深耕 AI 驱动的药物发现和前沿大模型训练与 scaling 两个方向。在 AI 药物发现领域,他主导构建了 SeedFold(超越 AlphaFold 3)、SeedProteo(超越 AlphaProteo 等)和 DPLM 系列蛋白质语言模型。在 LLM 方向,他于 2025 年初组建优化与 scaling 团队,搭建了可扩展预训练技术栈,支撑了 Seed 2.0 等模型训练。他是少数在 AI for Science 和前沿模型工程两个赛道都做出实质性突破的学者。
行业字节跳动SeedAI 药物发现大模型训练顾全全

推荐理由:顾全全的离开是字节 Seed 的重大人才变动,关注 AI 药物发现或大模型训练的从业者,值得了解他过去三年的核心成果——SeedFold 和 SeedProteo 直接对标 AlphaFold 3 等顶级模型,做生物计算或 LLM 预训练的团队建议点开看看。
原文
5月21日
07:59
07:59NVIDIA AI@NVIDIAAI
83°
NVIDIA AI宣布与SpaceXAI合作,利用Colossus 2集群的百万H100等效算力,从零开始训练一个规模显著更大的模型,总计算量提升10倍。双方将结合各自的数据和训练技术,预期模型能力将有重大飞跃。这一合作展示了超大规模算力在AI前沿研究中的关键作用,可能推动下一代基础模型的性能突破。
AI模型NVIDIASpaceXAI大模型训练算力Colossus 2

推荐理由:算力提升10倍意味着模型能力可能迎来质变,关注大模型训练的开发者可以了解这一合作的技术路径和潜在影响。
原文
5月19日
11:49
11:49Cursor@cursor_ai
76°
Cursor 宣布与 SpaceXAI 合作,从零开始训练一个显著更大的模型,总计算量提升 10 倍。双方将利用 Colossus 2 集群的百万 H100 等效算力,结合各自的数据与训练技术,预期实现模型能力的重大飞跃。这一合作表明 AI 编程工具正加速向更大规模、更强能力的模型演进,可能带来更智能的代码生成与理解能力。
AI产品CursorSpaceXAI编程助手大模型训练算力提升

推荐理由:AI 编程工具正在从“辅助”走向“自主”,Cursor 这次联手 SpaceXAI 把算力堆到 10 倍,做 AI 编程或模型训练的开发者值得关注——这可能是下一代编程助手的雏形。
原文
5月18日
10:36
10:36arXiv cs.LG@Yishun Lu, Junhao Zhang, Zeyu Yang, Wes Armour
精选72°
二阶优化方法能提升大模型训练效率,但计算和存储开销大。Asteria 是一个运行时系统,通过将优化器状态动态分配到 GPU、CPU 和 NVMe 存储,并异步执行逆根计算,解决了这一瓶颈。在单 GPU 的 DGX Spark 上,它支持 1B 参数模型的二阶训练;在多节点 GH200 系统上,它降低了 7B 模型的开销和延迟,加速收敛。研究表明,二阶优化实用化的关键在于运行时层面的状态管理和同步。
论文大模型训练二阶优化运行时系统分布式训练Asteria

推荐理由:Asteria 让二阶优化从理论走向实用,做大模型训练的团队可以大幅降低显存压力,同时保持收敛速度优势,值得关注其开源进展。
原文
精选全部日报登录