AITOP6月11日 15:28
精选
过去 24 小时,从 649 条中筛出 45 条
6月11日
15:28
1107 vs 303:谷歌悄悄开源了一个“拆打字机”的模型,把大模型速度翻了4倍
15:23
AITOP6月11日 15:23
15:07
AITOP6月11日 15:07
6月8日
10:33
10:33
arXiv cs.LG@Rohan Shravan
精选72°
推荐理由:这篇论文解决了大模型训练资源门槛高的问题——单节点8卡就能训120B模型,做MoE和模型扩展的团队可以直接参考其状态保持原则和TQP策略,省下大量硬件成本。
6月4日
12:49
12:49
Fireworks AI@FireworksAI_HQ
精选72°
推荐理由:多数实验室事后才考虑推理效率,而 Step 3.7 Flash 从设计之初就为推理优化,做智能体应用和视觉语言模型的开发者可以直接试用,感受 400 tok/sec 的流畅体验。
6月1日
00:09
AITOP6月1日 00:09
5月29日
5月13日
19:12
19:12
arXiv cs.LG@Sagi Ahrac, Noya Hochwald, Mor Geva
精选
推荐理由:做MoE模型训练或路由优化的研究者,这篇论文解释了路由崩溃和负载均衡损失的底层机制,看完会对如何设计更有效的路由策略有直接启发。
