10:11arXiv: DeepSeek@Megan Frisella, Shubham Tiwari, Andy Ruan, Yi Pan, Parker Gustafson, Mat Jacob, Gilbert Bernstein, Stephanie Wang精选Piper 是一种用户可控的分布式训练系统,通过将训练策略与运行时实现解耦,解决了现有系统难以适应新策略或集成先进策略的问题。用户只需通过少量模型注释和调度指令声明训练策略,系统自动编译为设备执行计划。Piper 使用统一中间表示(IR)表示所有计算和通信,支持数据、流水线、专家并行及 ZeRO 等优化。实验表明,Piper 在常见策略上保持性能,同时通过联合调度计算和通信(如 DeepSeek-V3 的 DualPipe)实现额外性能与内存效率提升。论文分布式训练并行策略中间表示ZeRODeepSeek-V3推荐理由:Piper 解决了分布式训练中策略与实现绑定的痛点,做大规模模型训练或并行策略研究的开发者可以直接用这套框架灵活组合新策略,省去手动调优的麻烦。原文
10:42arXiv: DeepSeek@Moiz Arif, Avinash Maurya, Sudharshan Vazhkudai, Bogdan Nicolae精选72°本文系统研究了从标准生成式 AI 向推理密集型架构(如长链思维模型)转变时,LLM 推理面临的新瓶颈。研究发现,推理工作负载产生大量推理 token,使推理进入“容量受限”阶段,而非传统的计算受限阶段。通过评估 8B 到 671B 参数模型,论文揭示了数据并行在小模型上高效但受 KV 缓存碎片影响,张量并行在 32B 参数附近有次线性增益,而大规模稠密模型受互联和内存带宽限制,稀疏 MoE 模型则受路由和同步延迟限制。这些发现为构建下一代推理基础设施提供了决策框架。论文推理模型并行策略KV缓存MoE系统优化推荐理由:这篇论文戳中了推理模型部署的核心痛点——从计算瓶颈转向容量瓶颈,做 LLM 推理优化的工程师和架构师值得细读,能帮你避开常见的并行策略陷阱。原文
10:18arXiv cs.AI@Mengtian Yang, Zhekun Zhang, Mingheng Wu, Jianwen Yan, Hanshi Sun, Li-wen Chang精选72°Charon 是一个用于大规模 LLM 训练和推理性能预测的统一、模块化、细粒度模拟器。它解决了因并行策略、系统优化和硬件配置复杂而难以优化部署的问题。实验表明,Charon 在不同模型和配置下预测误差始终低于 5.35%,在大型 GPU 集群训练场景下误差低于 3.74%。在实际推理部署中,Charon 发现了一种配置,将系统吞吐量提升至超过工程调优的基线,展示了其实际价值。论文LLM训练推理优化性能模拟并行策略Charon推荐理由:做 LLM 部署优化的工程师终于有了一个高精度模拟器来验证“如果…会怎样”的假设,Charon 能帮你快速找到最佳配置,避免盲目调参,建议直接看论文实验部分。原文