AITOP6月11日 15:28
精选
过去 24 小时,从 842 条中筛出 51 条
6月11日
15:28
1107 vs 303:谷歌悄悄开源了一个“拆打字机”的模型,把大模型速度翻了4倍
15:23
AITOP6月11日 15:23
15:07
AITOP6月11日 15:07
6月10日
10:11
10:11
arXiv: DeepSeek@Megan Frisella, Shubham Tiwari, Andy Ruan, Yi Pan, Parker Gustafson, Mat Jacob, Gilbert Bernstein, Stephanie Wang
精选
推荐理由:Piper 解决了分布式训练中策略与实现绑定的痛点,做大规模模型训练或并行策略研究的开发者可以直接用这套框架灵活组合新策略,省去手动调优的麻烦。
6月1日
00:09
AITOP6月1日 00:09
5月29日
5月28日
22:05
22:05
Clement Delangue@ClementDelangue
精选83°
推荐理由:做分布式 RL 训练的团队终于可以告别昂贵的带宽和复杂的基础设施——只需 HTTPS 和一个 Bucket,就能实现跨区域的推理集群同步,建议搞 RL 的开发者直接看原文。
5月21日
07:58
07:58
Marc Andreessen@pmarca
精选72°
推荐理由:这篇论文戳穿了AI暂停条约的技术漏洞——分布式训练让监管形同虚设,做AI治理、安全研究的团队值得细看,看完会对现有方案的有效性重新评估。
5月19日
14:39
14:39
arXiv cs.LG@Ruitao Liu, Xinyang Tian, Shuo Chen, Tingrui Zhang, Guang Yang, Alan Zhao, Wei Xu
精选
推荐理由:大模型训练中流水线并行的空闲气泡问题一直困扰着分布式训练团队,RRFP 用就绪优先的思路直接提升 GPU 利用率,做大规模训练的工程师值得关注这个新方案。
5月18日
10:36
10:36
arXiv cs.LG@Yishun Lu, Junhao Zhang, Zeyu Yang, Wes Armour
精选72°
推荐理由:Asteria 让二阶优化从理论走向实用,做大模型训练的团队可以大幅降低显存压力,同时保持收敛速度优势,值得关注其开源进展。
