00:21berryxia@berryxia精选73°DeepSeek开源了DSpark投机解码框架,用于推理优化。DSpark通过并行backbone加顺序Markov head解决传统投机解码的后缀衰减问题,并引入置信度调度和负载感知调度器。在DeepSeek-V4生产环境中,单用户生成速度比MTP-1基线快60-85%,不同场景吞吐提升1.5x到5x。开源内容包括DeepSeek-V4-Pro-DSpark和DeepSeek-V4-Flash-DSpark模型checkpoint以及MIT协议的DeepSpec训练代码。AI模型DeepSeekDSparkDeepSeek-V4投机解码推理优化推荐理由:DeepSeek开源了DSpark框架,能让你的V4模型推理提速60%以上,且不影响质量。它解决了投机解码在真实部署中的难题,已经稳定跑在生产环境。原文
01:02LMSYS Org (SGLang)@lmsysorg79°与NVIDIA合作,在GB300上使用SGLang服务DeepSeek-V4,实现5倍吞吐量提升(~2,200→~11,200 tok/s/GPU,交互性~50 tok/s/user)。借助MTP,在80 tok/s/user交互性下吞吐再提升2.6倍。Blackwell Ultra聚合模式下30 tok/s/user时吞吐提升2.91倍,峰值无MTP吞吐提升超6倍。采用W4A4 MegaMoE量化(MXFP4)且精度损失可忽略。单个FP8-einsum修复将MTP接受率从0.57提至0.70。AI模型DeepSeek-V4GB300SGLang推理优化NVIDIA8 个信源在谈推荐理由:想用SGLang在GB300上榨干DeepSeek-V4?NVIDIA合作实测,吞吐翻5倍,交互延迟不变,MTP和量化细节全公开。原文
20:16vLLM@vllm_project精选73°vLLM v0.23.0 包含 408 次提交,来自 200 位贡献者(63 位新贡献者)。主要亮点:DeepSeek-V4 在多个后端上成熟,引入 TRTLLM-gen attention 内核、与 V3.2 解耦的稀疏 MLA 以及用于 Mega-MoE 的 EPLB 调度。Model Runner V2 现已成为 Llama 和 Mistral 稠密模型的默认运行器。新增 Gemma 4 Unified(无编码器)及 MTP 支持。还提供了多层级 KV 缓存卸载(含对象存储层)和统一的推理与工具调用解析器。AI产品vLLMDeepSeek-V4LlamaGemma 4推理引擎4 个信源在谈推荐理由:vLLM v0.23.0 大更新,DeepSeek-V4 和 Llama 用户值得升级,新的 KV 缓存卸载能省显存,推理与工具调用解析也更顺了。原文
08:06Julien Chaumond@julien_cNVIDIA 发布了 DeepSeek-V4-Pro-NVFP4 的修复版本,该模型基于 DeepSeek-V4 架构,采用 NVFP4 精度优化,旨在提升推理效率和性能。修复版解决了之前版本中的一些问题,使模型更加稳定可靠。对于使用 NVIDIA 硬件进行 AI 推理的开发者来说,这是一个值得关注的更新。AI模型DeepSeek-V4NVIDIANVFP4模型修复推理优化5 个信源在谈推荐理由:NVIDIA 官方修复版解决了 DeepSeek-V4 在自家硬件上的精度和稳定性问题,用 NVIDIA GPU 做推理的团队可以直接拉取使用,省去自己调优的麻烦。原文
13:37深度求索 DeepSeek@deepseek_ai78°DeepSeek 发布了 V4 Preview 版本,包含 Pro 和 Flash 两个模型,均支持 1M 上下文长度。Pro 版本总参数量 1.6T,激活参数 49B,性能对标全球顶级闭源模型;Flash 版本总参数量 284B,激活参数 13B,主打高效经济。模型权重和技术报告已开源,API 同步更新。这标志着开源大模型在长上下文和性价比上迈出重要一步。AI模型DeepSeek-V4开源/仓库长上下文推理模型性价比推荐理由:长上下文和低成本是当前 AI 应用的两大痛点,DeepSeek-V4 同时解决这两个问题,做 RAG、文档分析或长对话的开发者可以直接上手试试。原文