AITP
精选全部 AI 动态AI 日报Agent 接入关于更新日志信源提报反馈
登录 / 注册
AITOP
精选
过去 24 小时,从 842 条中筛出 51 条
全部模型产品行业论文技巧
标签:大模型训练×
6月11日
15:28
AITOP6月11日 15:28
1107 vs 303:谷歌悄悄开源了一个“拆打字机”的模型,把大模型速度翻了4倍
15:23
AITOP6月11日 15:23
DiffusionGemma颠覆文本生成?自回归模型的“统治”要结束了
15:07
AITOP6月11日 15:07
每秒1107个token,Google开源的扩散模型为什么能改变本地推理格局?
6月2日
17:14
17:14berryxia@berryxia
精选
UCLA 教授顾全全于 2026 年 6 月 2 日宣布离开字节跳动 Seed 团队。过去三年,他同时深耕 AI 驱动的药物发现和前沿大模型训练与 scaling 两个方向。在 AI 药物发现领域,他主导构建了 SeedFold(超越 AlphaFold 3)、SeedProteo(超越 AlphaProteo 等)和 DPLM 系列蛋白质语言模型。在 LLM 方向,他于 2025 年初组建优化与 scaling 团队,搭建了可扩展预训练技术栈,支撑了 Seed 2.0 等模型训练。他是少数在 AI for Science 和前沿模型工程两个赛道都做出实质性突破的学者。
行业字节跳动SeedAI 药物发现大模型训练顾全全

推荐理由:顾全全的离开是字节 Seed 的重大人才变动,关注 AI 药物发现或大模型训练的从业者,值得了解他过去三年的核心成果——SeedFold 和 SeedProteo 直接对标 AlphaFold 3 等顶级模型,做生物计算或 LLM 预训练的团队建议点开看看。
原文
6月1日
00:09
AITOP6月1日 00:09
OpenAI 发起“Codex for Open Source”:免费赠送 6 个月 Pro 订阅,开源维护者能否迎来 AI 变革?
5月29日
08:02
AITOP5月29日 08:02
Opus 4.8发布:编程助手的“静默时刻”,是解放开发者,还是新门槛?🔥Anthropic 把 AI 编程的“确认键”彻底删掉了!Claude Code 搭载全新 Opus 4.8 模型,长时间任务不跑偏、不废话、不中断,像一个资深工程师一样默默干活,从功能开发到漏洞清扫全包圆,你在旁边喝茶等结果就行。过去 AI 写代码三步一问“这样可以吗”,现在它直接交完整交付物……自主编程的最后一层窗户纸,被捅破了。做自动化开发和代码审查的团队,这个模型建议直接上手,效率差距肉眼可见……Opus 4.8发布:编程助手的“静默时刻”,是解放开发者,还是新门槛?
5月18日
10:36
10:36arXiv cs.LG@Yishun Lu, Junhao Zhang, Zeyu Yang, Wes Armour
精选72°
二阶优化方法能提升大模型训练效率,但计算和存储开销大。Asteria 是一个运行时系统,通过将优化器状态动态分配到 GPU、CPU 和 NVMe 存储,并异步执行逆根计算,解决了这一瓶颈。在单 GPU 的 DGX Spark 上,它支持 1B 参数模型的二阶训练;在多节点 GH200 系统上,它降低了 7B 模型的开销和延迟,加速收敛。研究表明,二阶优化实用化的关键在于运行时层面的状态管理和同步。
论文大模型训练二阶优化运行时系统分布式训练Asteria

推荐理由:Asteria 让二阶优化从理论走向实用,做大模型训练的团队可以大幅降低显存压力,同时保持收敛速度优势,值得关注其开源进展。
原文
精选全部日报登录