全部 AI 动态 · AI 热点

AITOP

6月24日

20:00

20:00IT之家（博客/媒体）

AI产品中科曙光 ParaStor F9000 IO500 全闪存储大模型训练

推荐理由：中科曙光的ParaStor F9000在IO500上拿了两个第一，存储性能全球领先，还搞定了414.7亿原子模拟，比之前的290亿原子纪录高出不少。

原文

6月18日

00:34

量子位@十三

北京启动建设一座AI工厂，规划算力规模达10万P。该工厂目标日产10万亿Token，支撑大模型训练与推理。项目提出通过技术创新实现1000倍综合降本，降低AI算力使用门槛。

行业 AI工厂算力大模型训练基础设施

推荐理由：北京搞了个10万P算力的AI工厂，日产10万亿Token，还要降本1000倍，搞AI的可以留意这个。

原文

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

6月2日

17:14

berryxia@berryxia

精选

UCLA 教授顾全全于 2026 年 6 月 2 日宣布离开字节跳动 Seed 团队。过去三年，他同时深耕 AI 驱动的药物发现和前沿大模型训练与 scaling 两个方向。在 AI 药物发现领域，他主导构建了 SeedFold（超越 AlphaFold 3）、SeedProteo（超越 AlphaProteo 等）和 DPLM 系列蛋白质语言模型。在 LLM 方向，他于 2025 年初组建优化与 scaling 团队，搭建了可扩展预训练技术栈，支撑了 Seed 2.0 等模型训练。他是少数在 AI for Science 和前沿模型工程两个赛道都做出实质性突破的学者。

行业字节跳动 Seed AI 药物发现大模型训练顾全全

推荐理由：顾全全的离开是字节 Seed 的重大人才变动，关注 AI 药物发现或大模型训练的从业者，值得了解他过去三年的核心成果——SeedFold 和 SeedProteo 直接对标 AlphaFold 3 等顶级模型，做生物计算或 LLM 预训练的团队建议点开看看。

原文

5月21日

07:59

NVIDIA AI@NVIDIAAI

83°

NVIDIA AI宣布与SpaceXAI合作，利用Colossus 2集群的百万H100等效算力，从零开始训练一个规模显著更大的模型，总计算量提升10倍。双方将结合各自的数据和训练技术，预期模型能力将有重大飞跃。这一合作展示了超大规模算力在AI前沿研究中的关键作用，可能推动下一代基础模型的性能突破。

AI模型 NVIDIA SpaceXAI 大模型训练算力 Colossus 2

推荐理由：算力提升10倍意味着模型能力可能迎来质变，关注大模型训练的开发者可以了解这一合作的技术路径和潜在影响。

原文

5月19日

11:49

Cursor@cursor_ai

76°

Cursor 宣布与 SpaceXAI 合作，从零开始训练一个显著更大的模型，总计算量提升 10 倍。双方将利用 Colossus 2 集群的百万 H100 等效算力，结合各自的数据与训练技术，预期实现模型能力的重大飞跃。这一合作表明 AI 编程工具正加速向更大规模、更强能力的模型演进，可能带来更智能的代码生成与理解能力。

AI产品 Cursor SpaceXAI 编程助手大模型训练算力提升

推荐理由：AI 编程工具正在从“辅助”走向“自主”，Cursor 这次联手 SpaceXAI 把算力堆到 10 倍，做 AI 编程或模型训练的开发者值得关注——这可能是下一代编程助手的雏形。

原文

5月18日

10:36

arXiv cs.LG@Yishun Lu, Junhao Zhang, Zeyu Yang, Wes Armour

精选72°

二阶优化方法能提升大模型训练效率，但计算和存储开销大。Asteria 是一个运行时系统，通过将优化器状态动态分配到 GPU、CPU 和 NVMe 存储，并异步执行逆根计算，解决了这一瓶颈。在单 GPU 的 DGX Spark 上，它支持 1B 参数模型的二阶训练；在多节点 GH200 系统上，它降低了 7B 模型的开销和延迟，加速收敛。研究表明，二阶优化实用化的关键在于运行时层面的状态管理和同步。

论文大模型训练二阶优化运行时系统分布式训练 Asteria

推荐理由：Asteria 让二阶优化从理论走向实用，做大模型训练的团队可以大幅降低显存压力，同时保持收敛速度优势，值得关注其开源进展。

原文