SGLang

§ 01综述

SGLang 是一个高效的大语言模型推理引擎，专为加速模型部署和推理而设计，近期在性能优化和生态扩展上取得多项突破。

SGLang 近期进展

DeepSeek-V4 Flash RL 在 AMD MI355X 上完成端到端训练：LMSYS Org 于 2025年6月宣布，基于SGLang的DeepSeek-V4 Flash RL训练在AMD MI355X上完整跑通，验证了其跨平台兼容性。原文

第三方用SGLang+AMD MI300将DeepSeek API成本降至五分之一：2025年6月，有开发者利用SGLang和AMD MI300集群，将DeepSeek API的推理成本降低80%，引发业界对低成本替代方案的关注。原文

Agent辅助SGLang开发：吞吐提升71.4%，TTFT降63%：2025年6月，LMSYS Org 发布Agent辅助优化成果，通过智能调度使SGLang吞吐量提升71.4%，首次令牌时间（TTFT）降低63%。原文

SGLang集成DSpark：置信度驱动变长验证提升推测解码吞吐：2025年6月，DSpark技术被集成到SGLang，利用置信度动态调整验证长度，使推测解码的吞吐显著提升。原文

当前焦点与观察点

当前焦点集中在SGLang的跨硬件适配和成本优化。AMD平台上的突破性成果（如MI300和MI355X）表明SGLang正从NVIDIA专属走向更开放的生态。同时，腾讯混元Hy3 MoE模型（295B参数、21B激活、256K上下文）发布时也提及SGLang支持，进一步巩固其在大模型推理中的地位。此外，摩尔线程完成美团LongCat-2.0极速适配，显示国产硬件生态的接入。争议点在于，SGLang的高效优化是否会导致对特定硬件的依赖，以及社区贡献的可持续性。总体来看，SGLang正成为大模型推理基础设施的关键组件，性能与成本的双重突破将推动更多实际应用落地。

§ 02相关报道10 条在档

§ 03邻近话题