全部 AI 动态 · AI 热点

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

6月10日

10:11

10:11

arXiv: DeepSeek@Megan Frisella, Shubham Tiwari, Andy Ruan, Yi Pan, Parker Gustafson, Mat Jacob, Gilbert Bernstein, Stephanie Wang

精选

Piper 是一种用户可控的分布式训练系统，通过将训练策略与运行时实现解耦，解决了现有系统难以适应新策略或集成先进策略的问题。用户只需通过少量模型注释和调度指令声明训练策略，系统自动编译为设备执行计划。Piper 使用统一中间表示（IR）表示所有计算和通信，支持数据、流水线、专家并行及 ZeRO 等优化。实验表明，Piper 在常见策略上保持性能，同时通过联合调度计算和通信（如 DeepSeek-V3 的 DualPipe）实现额外性能与内存效率提升。

论文分布式训练并行策略中间表示 ZeRO DeepSeek-V3

推荐理由：Piper 解决了分布式训练中策略与实现绑定的痛点，做大规模模型训练或并行策略研究的开发者可以直接用这套框架灵活组合新策略，省去手动调优的麻烦。