AITOP6月11日 15:28
精选
过去 24 小时,从 868 条中筛出 49 条
6月11日
15:28
1107 vs 303:谷歌悄悄开源了一个“拆打字机”的模型,把大模型速度翻了4倍
15:23
AITOP6月11日 15:23
15:07
AITOP6月11日 15:07
6月1日
00:09
AITOP6月1日 00:09
5月29日
5月18日
12:09
12:09
arXiv cs.AI@Yishun Lu, Wes Armour
精选
推荐理由:多模态模型训练中模态竞争是常见痛点,做多模态预训练或大batch训练的团队可以直接参考这个二阶优化方案,能显著提升训练效率和稳定性。
10:36
10:36
arXiv cs.LG@Yishun Lu, Junhao Zhang, Zeyu Yang, Wes Armour
精选72°
推荐理由:Asteria 让二阶优化从理论走向实用,做大模型训练的团队可以大幅降低显存压力,同时保持收敛速度优势,值得关注其开源进展。
