AITOP6月11日 15:28
精选
过去 24 小时,从 662 条中筛出 45 条
6月11日
15:28
1107 vs 303:谷歌悄悄开源了一个“拆打字机”的模型,把大模型速度翻了4倍
15:23
AITOP6月11日 15:23
15:07
AITOP6月11日 15:07
6月5日
12:14
12:14
arXiv cs.AI@Akarsh Kumar, Phillip Isola
精选
推荐理由:SMT解决了RNN训练中并行性差和长程依赖难学的问题,做序列建模或时间序列分析的开发者可以直接用这个方法替代BPTT,训练效率会大幅提升。
12:08
12:08
arXiv cs.AI@Senmiao Wang, Tiantian Fang, Haoran Zhang, Yushun Zhang, Kunxiang Zhao, Alex Schwing, Ruoyu Sun
精选
推荐理由:这项研究解决了LLM训练中权重矩阵病态条件数导致的收敛不稳定问题,做预训练优化的团队可以直接在Llama等模型上尝试,无需额外推理成本。
6月4日
20:32
20:32Hugging Face: Blog(博客/媒体)
精选
推荐理由:NVIDIA 用任务种子生成合成数据,解决了预训练数据稀缺和多样性不足的问题,做 NLP 和模型训练的团队可以关注,能显著降低数据标注成本。
6月2日
11:18
11:18
arXiv cs.LG@Kazuto Fukuchi, Ryuichiro Hataya, Kota Matsui
精选
推荐理由:这篇论文为预训练数据规模定律提供了首个理论证明,做元学习或预训练研究的学者值得关注,可以直接参考其复杂度正则化方法改进现有模型。
6月1日
00:09
AITOP6月1日 00:09
5月29日
5月25日
11:22
11:22
arXiv cs.LG@Hongwu Peng, Ohiremen Dibua, Yuanjun Xiong, Yifan Gong, Jianming Zhang, Yan Kang
精选
推荐理由:做大规模MoE模型训练的团队终于有了可靠的超参数迁移方案——不用为每个专家配置重新调参,直接复用密集模型的超参数即可,建议做预训练优化的点开看看。
5月22日
11:10
11:10
arXiv cs.AI@Pilchen Hippolyte, Fabre Romain, Signe Talla Franck, Perez Patrick, Grave Edouard
精选72°
推荐理由:这项研究揭示了数据顺序对模型知识时效性的关键影响,做LLM预训练或持续学习的团队值得关注,可以直接参考其基准和训练方法。
5月20日
11:30
11:30
arXiv cs.LG@Valentina Njaradi, Clémentine Dominé, Rachel Swanson, Marco Mondelli, Andrew Saxe
精选
推荐理由:这篇论文为预训练表征的维度选择提供了理论指导,做迁移学习或模型压缩的研究者可以直接参考其结论来优化训练策略。
11:17
11:17
arXiv cs.LG@Zhen Xiong, Shang-Ling Hsu, Cyrus Shahabi
精选
推荐理由:做轨迹分析或时空数据挖掘的团队,TrajTok 提供了一种无需为每个任务单独训练模型的通用方案,值得关注其预训练权重和代码开源。
10:24
10:24
arXiv cs.AI@Yuze Zhao, Junpeng Fang, Lu Yu, Zhenya Huang, Kai Zhang, Qing Cui, Qi Liu, Jun Zhou, Enhong Chen
精选72°
推荐理由:这篇论文戳破了“代码训练提升通用推理”的迷思,做预训练数据策略的团队值得细看——它指明了如何通过结构化推理信号精准优化数学能力,而非盲目堆代码。
5月14日
18:29
18:29
Meta AI@AIatMeta
精选
推荐理由:Meta 用实际数据证明了 Muse Spark 的预训练效率比 Llama 4 提升 10 倍以上,做模型训练或资源优化的团队值得关注其缩放定律方法,可以直接借鉴来评估自己的模型效率。
