AITOP6月11日 15:28
精选
过去 24 小时,从 752 条中筛出 47 条
6月11日
15:28
1107 vs 303:谷歌悄悄开源了一个“拆打字机”的模型,把大模型速度翻了4倍
15:23
AITOP6月11日 15:23
15:07
AITOP6月11日 15:07
6月1日
00:09
AITOP6月1日 00:09
5月29日
5月19日
11:10
11:10
arXiv cs.LG@Tim Tsz-Kit Lau, Weijie Su
精选
推荐理由:这篇论文解决了深度学习优化器忽视架构对称性的根本问题,做大规模语言模型预训练的团队值得关注——它可能成为替代AdamW的新范式,实验显示能稳定提升损失和训练稳定性。
