AITOP6月11日 15:28
精选
过去 24 小时,从 869 条中筛出 49 条
6月11日
15:28
1107 vs 303:谷歌悄悄开源了一个“拆打字机”的模型,把大模型速度翻了4倍
15:23
AITOP6月11日 15:23
15:07
AITOP6月11日 15:07
6月1日
00:09
AITOP6月1日 00:09
5月29日
5月25日
11:22
11:22
arXiv cs.LG@Hongwu Peng, Ohiremen Dibua, Yuanjun Xiong, Yifan Gong, Jianming Zhang, Yan Kang
精选
推荐理由:做大规模MoE模型训练的团队终于有了可靠的超参数迁移方案——不用为每个专家配置重新调参,直接复用密集模型的超参数即可,建议做预训练优化的点开看看。
5月21日
10:59
10:59
arXiv cs.AI@Dayal Singh Kalra, Maissam Barkeshli
精选
推荐理由:做 LLM 训练调参的团队会关心——嵌入层学习率是 μP 优势的关键,直接放大 SP 的嵌入层学习率就能获得类似效果,值得在实验中验证。
