13:11LMSYS Org (SGLang)@lmsysorg精选73°SGLang在NVIDIA GB300 NVL72平台上,针对DeepSeek V4 Pro 1.6T模型(FP4精度,8K/1K上下文)实现了每GPU超过12K tok/s的推理速度。该性能由NVIDIA Dynamo(SGLang)和MTP技术协同实现。根据SemiAnalysis InferenceX基准测试,该性能在整个交互性曲线上保持稳定。AI模型SGLangGB300 NVL72DeepSeek V4 ProNVIDIA Dynamo推理模型10 个信源在谈推荐理由:SGLang在GB300上跑DeepSeek V4 Pro,每GPU超1.2万token原文
09:55rohanpaul_ai@rohanpaul_ai精选73°NVIDIA 发布了首个智能体 AI 基准测试 AgentPerf 的结果。该基准由 Artificial Analysis 推出,测试系统在保持响应性的同时能并发运行多少个智能体。GB300 NVL72 在最低服务层级达到每兆瓦 61.4K 并发智能体,而 H200 仅为 2.6K,性能提升约 23.6 倍。测试模拟了真实编码智能体路径,涵盖 12 种以上编程语言,请求长度从 5K 到 131K token 不等,平均约 27K token。性能提升得益于 72 块 GPU 通过 NVLink 组成机架级系统,以及优化 MoE 专家分配、通信与计算重叠等软件技术。AI模型NVIDIAGB300 NVL72H200AgentPerf智能体10 个信源在谈推荐理由:NVIDIA 首个智能体基准,GB300 比 H200 强 23 倍原文