21:13LMSYS Org (SGLang)@lmsysorg71°SGLang团队为DeepEP MoE引入两种调度时负载均衡器Waterfill和LPLB。Waterfill将共享专家工作分配到较轻的rank,在DeepSeek V3/R1上带来+1.48%到+4.66%的性能提升,V4 Flash吞吐量从49,253 tok/s增至51,677 tok/s。LPLB优化冗余路由专家副本的流量分配,在red16/red32配置下取得+0.84%到+7.34%的提升。两种方法均不改变模型语义,保持推理精度。AI产品SGLangDeepEPDeepSeek V3推理优化负载均衡推荐理由:SGLang给DeepSeek模型加了两个新负载均衡器,跑DeepSeek V3/R1速度能快最多7%,而且不改精度,想加速推理的可以试试。原文
21:12LMSYS Org (SGLang)@lmsysorg精选英伟达与智谱AI合作,发布了基于GLM-5.2的NVFP4量化检查点。该模型为744B参数混合专家架构(40B活跃参数),专注于推理和编码任务。NVFP4量化通过NVIDIA Model Optimizer实现,在降低内存占用的同时保持前沿推理性能。模型还支持稀疏注意力和IndexShare索引器,实现高效长上下文处理。目前已在Blackwell/Grace Blackwell上通过SGLang提供首日支持。AI模型GLM-5.2NVFP4NVIDIASGLang推理模型5 个信源在谈推荐理由:英伟达把GLM-5.2压缩成NVFP4,内存省一大截,推理编码在Blackwell上直接跑,SGLang第一时间就能用。原文
21:12LMSYS Org (SGLang)@lmsysorg精选Liquid AI 发布了 LFM2.5-230M 模型,参数规模仅 230M,是其最小模型。该模型基于 LFM2 架构,专为设备端部署设计,推理速度极快。它可在云端 GPU 和低成本 CPU 上运行,并支持工具调用和结构化数据提取。性能超过两倍参数量的模型,且已获 SGLang 的 Day 0 支持。AI模型LFM2.5-230MLiquid AISGLang推理模型设备端部署推荐理由:Liquid AI 新出的 230M 小模型,跑得飞快,还能干工具调用的活,比两倍大的模型还强。原文
01:02LMSYS Org (SGLang)@lmsysorg79°与NVIDIA合作,在GB300上使用SGLang服务DeepSeek-V4,实现5倍吞吐量提升(~2,200→~11,200 tok/s/GPU,交互性~50 tok/s/user)。借助MTP,在80 tok/s/user交互性下吞吐再提升2.6倍。Blackwell Ultra聚合模式下30 tok/s/user时吞吐提升2.91倍,峰值无MTP吞吐提升超6倍。采用W4A4 MegaMoE量化(MXFP4)且精度损失可忽略。单个FP8-einsum修复将MTP接受率从0.57提至0.70。AI模型DeepSeek-V4GB300SGLang推理优化NVIDIA8 个信源在谈推荐理由:想用SGLang在GB300上榨干DeepSeek-V4?NVIDIA合作实测,吞吐翻5倍,交互延迟不变,MTP和量化细节全公开。原文
01:01LMSYS Org (SGLang)@lmsysorg精选Krea 2 是由 Krea AI 推出的开源文本到图像模型,在独立评测机构 Artificial Analysis 上排名第一。它包含两个版本:RAW 为未蒸馏基座检查点,适合微调和 LoRA 训练;Turbo 为 8 步蒸馏检查点,实现快速高质量生成。用户可在 RAW 上训练 LoRA,在 Turbo 上进行推理,并已获得 SGLang 的 Day-0 支持。AI模型Krea 2SGLangRAWTurbo图像生成推荐理由:Krea 2 开源了双版本,RAW 用来训练 LoRA,Turbo 跑推理,直接用 SGLang 就能跑,比闭源模型更灵活。原文
16:43pandaily@contact@pandaily.com (Pandaily)摩尔线程与 SGLang 社区在首次线下见面会上宣布,MUSA 后端已合并入 SGLang 主线。该合并使 SGLang 能够原生支持摩尔线程 GPU,不再依赖 CUDA。此次 Meetup 聚焦中国开源 AI 生态的 GPU 兼容性与性能优化。此举为国内开发者提供了更低门槛的国产 GPU 推理方案。行业SGLangMUSA摩尔线程GPU开源生态推荐理由:想用国产GPU跑大模型?摩尔线程和SGLang把MUSA后端合到主线了,以后直接用,不用再折腾CUDA转译。原文
01:54LMSYS Org (SGLang)@lmsysorgpoolside发布的Laguna M.1是一个225B参数的MoE模型,专为智能体编码和长期任务设计。该模型采用70层结构:3个密集SwiGLU层加67个稀疏MoE层,共有256个专家,top-k=16且使用无辅助损失负载均衡。它在所有层使用全局注意力:64个Q头、8个KV头,以及softplus输出门控。Laguna M.1支持原生交错推理:在工具调用之间进行思考,并可每个请求切换。在SWE-bench Verified、SWE-bench Multilingual、SWE-Bench Pro和Terminal-Bench 2.0上表现强劲。现在可通过SGLang运行。AI模型Laguna M.1poolsideSGLang智能体编程助手2 个信源在谈推荐理由:poolside刚发的225B MoE模型Laguna M.1,专为智能体编码设计,SGLang直接跑起来了,在SWE-bench上很强。原文
23:06LMSYS Org (SGLang)@lmsysorg精选Zai_org 发布了新旗舰模型 GLM-5.2,支持 1M token 长上下文。在 Terminal-Bench 2.1 上,GLM-5.2 得分 81.0,相比 GLM-5.1 的 62.0 提升明显。IndexShare 机制在 1M 上下文下将每 token 的 FLOPs 降低了 2.9 倍,改进的 MTP 将投机解码接受率提升了 20%。该模型在 SGLang 中已获得即日支持。AI模型GLM-5.2Zai_orgSGLang长上下文推理模型推荐理由:Zai_org 的 GLM-5.2 来了,1M 长上下文拿下了 81.0 的 Terminal-Bench 分数,比上一代高出一截,而且推理效率也优化了,值得上手试试。原文
02:16LMSYS Org (SGLang)@lmsysorg76°LMSYS 发布博客介绍 DFlash 和 Spec V2 推测解码技术。在 8 块 B200 上,针对 HumanEval 基准,DFlash + Spec V2 实现超过 4.3 倍基线吞吐量和 1.5 倍原生 MTP 吞吐量。其核心包括块扩散起草器(一次前向传播生成完整 token 块)和 KV 注入(目标模型特征馈入每层 KV 缓存),以及 Spec V2 重叠调度器带来 33% 端到端提升。该方案现已作为 SGLang 的默认推测解码引擎。AI模型DFlashSpec V2SGLang推测解码推理加速推荐理由:LMSYS 和 Modal 联手推出了 DFlash,让 Qwen 3.5 的推理速度比原生 MTP 快 1.5 倍,比基线快 4.3 倍,代码已开源,玩起来!原文
13:11LMSYS Org (SGLang)@lmsysorg精选73°SGLang在NVIDIA GB300 NVL72平台上,针对DeepSeek V4 Pro 1.6T模型(FP4精度,8K/1K上下文)实现了每GPU超过12K tok/s的推理速度。该性能由NVIDIA Dynamo(SGLang)和MTP技术协同实现。根据SemiAnalysis InferenceX基准测试,该性能在整个交互性曲线上保持稳定。AI模型SGLangGB300 NVL72DeepSeek V4 ProNVIDIA Dynamo推理模型10 个信源在谈推荐理由:SGLang在GB300上跑DeepSeek V4 Pro,每GPU超1.2万token原文
22:18LMSYS Org (SGLang)@lmsysorg73°SGLang 宣布 Day-0 支持 MiniMax-M3,这是 MiniMax 推出的原生多模态 MoE 推理模型,总参数量约 428B(活跃参数约 23B),支持文本、图像和视频的融合处理。M3 采用 MiniMax 稀疏注意力机制,在 1M 上下文下相比 M2 实现 9 倍预填充和 15 倍解码加速,每 token 计算量降至 1/20。该模型在编码和协作任务上达到前沿智能体性能,并原生支持 NVIDIA Blackwell 和 AMD MI350X/MI355X 上的 MXFP8 格式。开发者可通过 SGLang 立即运行该模型。AI模型SGLangMiniMax-M3多模态MoE推理模型10 个信源在谈推荐理由:SGLang 第一时间支持 MiniMax-M3,做多模态推理和长上下文应用的团队可以直接上手体验 428B 模型的稀疏注意力加速,编码和智能体任务表现值得一试。原文
12:04LMSYS Org (SGLang)@lmsysorg精选SGLang 宣布 Day-0 支持 Google 的 DiffusionGemma 模型,这是 Gemma 4 的文本扩散变体(26B A4B MoE)。与传统逐 token 解码不同,DiffusionGemma 通过并行去噪 token 块实现极低批处理生成速度。该模型支持离散文本扩散、多模态输入(文本、图像、视频)输出文本、稀疏 MoE 架构(8/128 专家)以及可配置思考模式。开发者现在即可通过 SGLang 运行该模型。AI模型SGLangDiffusionGemmaGemma 4文本扩散MoE7 个信源在谈推荐理由:文本扩散模型大幅提升生成效率,适合需要低延迟批量推理的 AI 应用开发者,建议立即在 SGLang 中体验。原文
02:01阶跃星辰 Stepfun@Stepfun_AIStepFun 与 Modal 合作,发布了在 Modal 无服务器 AI 平台上部署 Step 3.7 Flash 模型的指南。该方案使用 8×H100 GPU、Modal Volumes 和 SGLang,提供 OpenAI 兼容的聊天补全端点。开发者无需管理基础设施即可快速部署和扩展推理工作负载。这降低了 StepFun 开源模型的使用门槛,让更多构建者能轻松调用。AI产品Step 3.7 FlashModalSGLang无服务器部署开源模型10 个信源在谈推荐理由:想低成本部署开源推理模型的团队,现在可以直接在 Modal 上跑 Step 3.7 Flash,免去 GPU 管理烦恼,还自带 OpenAI 兼容接口,建议试试。原文