AITOP6月11日 15:28
精选
过去 24 小时,从 899 条中筛出 49 条
6月11日
15:28
1107 vs 303:谷歌悄悄开源了一个“拆打字机”的模型,把大模型速度翻了4倍
15:23
AITOP6月11日 15:23
15:07
AITOP6月11日 15:07
6月9日
11:02
11:02
arXiv cs.AI@Tianyu Ruan, Fengzhuo Zhang, Shuche Wang, Shihua Zhang
精选72°
推荐理由:Muon 优化器在鲁棒性和迁移性上全面超越 Adam,做预训练或迁移学习的团队值得关注,尤其是需要模型对噪声和下游任务更鲁棒的场景。
6月1日
00:09
AITOP6月1日 00:09
5月29日
5月20日
10:11
10:11
arXiv cs.AI@Thomas Massena, Corentin Friedrich, Mathieu Serrurier
精选
推荐理由:这篇论文解决了优化器几何结构固定、无法适应问题几何的问题,做深度学习训练和优化器研究的开发者可以直接参考其自适应方法,有望提升模型训练效率。
5月19日
11:05
11:05
arXiv cs.LG@Abdurakhmon Sadiev, Artavazd Maranjyan, Ivan Ilin, Peter Richtárik
精选
推荐理由:分布式训练团队终于有了异步 LMO 方法的理论保障——Ringmaster LMO 解决了异构集群中慢节点拖累效率的问题,做大规模预训练或异构系统优化的开发者值得关注。
