AITOP6月11日 15:28
精选
过去 24 小时,从 838 条中筛出 51 条
6月11日
15:28
1107 vs 303:谷歌悄悄开源了一个“拆打字机”的模型,把大模型速度翻了4倍
15:23
AITOP6月11日 15:23
15:07
AITOP6月11日 15:07
6月9日
12:34
12:34
arXiv cs.LG@Andries Rosseau, Robert Müller, Ann Nowé
精选
推荐理由:持续学习中的可塑性丧失是困扰AI训练的核心难题,本文从理论到实践给出了新解法——做持续学习、强化学习或终身学习的开发者,值得关注这个等距性视角。
12:26
12:26
arXiv cs.LG@Brian Coyle, Snehal Raj, Virag Umathe, El Amine Cherrat, Elham Kashefi
精选
推荐理由:量子机器学习团队终于有了一个能大幅降低测量成本的梯度估计框架——QUIVER在60量子比特规模上效率提升数个数量级,做量子电路优化的研究者可以直接用。
11:02
11:02
arXiv cs.AI@Tianyu Ruan, Fengzhuo Zhang, Shuche Wang, Shihua Zhang
精选72°
推荐理由:Muon 优化器在鲁棒性和迁移性上全面超越 Adam,做预训练或迁移学习的团队值得关注,尤其是需要模型对噪声和下游任务更鲁棒的场景。
6月5日
12:08
12:08
arXiv cs.AI@Senmiao Wang, Tiantian Fang, Haoran Zhang, Yushun Zhang, Kunxiang Zhao, Alex Schwing, Ruoyu Sun
精选
推荐理由:这项研究解决了LLM训练中权重矩阵病态条件数导致的收敛不稳定问题,做预训练优化的团队可以直接在Llama等模型上尝试,无需额外推理成本。
11:56
11:56
arXiv cs.AI@Thomas T. Zhang, Alok Shah, Yifei Zhang, Vincent Zhang, Nikolai Matni, Max Simchowitz
精选
推荐理由:DoPr 解决了训练和部署性能不一致的痛点,做自回归模型、流生成或机器人学习的团队可以直接尝试这个即插即用优化器,可能会发现验证损失没变但实际效果提升。
6月1日
00:09
AITOP6月1日 00:09
5月29日
5月21日
10:22
10:22
arXiv cs.LG@Tom Jacobs, Rohan Jain, Rebekka Burkholz
精选
推荐理由:做稀疏模型训练或Transformer优化的研究者,HORST直接解决了AdamW在高稀疏度下效果差的问题,值得在实验中尝试替换优化器。
5月20日
10:11
10:11
arXiv cs.AI@Thomas Massena, Corentin Friedrich, Mathieu Serrurier
精选
推荐理由:这篇论文解决了优化器几何结构固定、无法适应问题几何的问题,做深度学习训练和优化器研究的开发者可以直接参考其自适应方法,有望提升模型训练效率。
5月18日
12:09
12:09
arXiv cs.AI@Yishun Lu, Wes Armour
精选
推荐理由:多模态模型训练中模态竞争是常见痛点,做多模态预训练或大batch训练的团队可以直接参考这个二阶优化方案,能显著提升训练效率和稳定性。
5月13日
19:12
19:12
arXiv cs.LG@Kexuan Shi, Hanxuan Li, Zeju Qiu, Yandong Wen, Simon Buchholz, Weiyang Liu
精选
推荐理由:Pion 解决了传统优化器在训练中破坏权重矩阵谱结构的问题,做 LLM 训练的研究者和工程师值得关注,尤其适合追求训练稳定性和模型质量的团队。
