00:21berryxia@berryxia精选73°DeepSeek开源了DSpark投机解码框架,用于推理优化。DSpark通过并行backbone加顺序Markov head解决传统投机解码的后缀衰减问题,并引入置信度调度和负载感知调度器。在DeepSeek-V4生产环境中,单用户生成速度比MTP-1基线快60-85%,不同场景吞吐提升1.5x到5x。开源内容包括DeepSeek-V4-Pro-DSpark和DeepSeek-V4-Flash-DSpark模型checkpoint以及MIT协议的DeepSpec训练代码。AI模型DeepSeekDSparkDeepSeek-V4投机解码推理优化推荐理由:DeepSeek开源了DSpark框架,能让你的V4模型推理提速60%以上,且不影响质量。它解决了投机解码在真实部署中的难题,已经稳定跑在生产环境。原文
01:07marktechpost@Asif Razzaq79°DeepSeek开源了DSpark框架,通过将草稿模块附加到现有DeepSeek-V4权重上实现推测解码。它结合并行草稿骨干和轻量级马尔可夫头来减少后缀衰减,并加入基于置信度的调度验证,根据实时GPU负载调整检查token数量。离线测试中,接受长度相比DFlash和Eagle3提升16-31%;生产环境中每个用户生成速度比MTP-1基线提升57-85%,且无损。训练代码DeepSpec以MIT许可证开源。AI模型DSparkDeepSeek-V4DeepSeek推测解码推理加速1 个信源在谈推荐理由:DeepSeek搞了个DSpark,让V4推理速度翻倍,开源还无损,适合高并发场景。原文
10:16arXiv: DeepSeek@Luxi Lin, Shuang Peng, Rui Ma, Junhao Hua, Shuwei Fan, Zhengda Qin, Qiang Wang, Hongjian Sun, Fangmin Chen, Songwei LiuHyperDFlash是一种针对DeepSeek-V4多超连接架构的块并行推测解码框架。它通过预折叠残差状态保持多路径结构,并用门控残差缩减器将参数减少三个数量级。同时引入KL蒸馏损失正则化LM-head预测。在数学推理、代码合成和对话基准上,HyperDFlash的平均接受长度和解码加速比均优于原生MTP和DFlash基线。AI模型HyperDFlashDeepSeek-V4MTPDFlash推测解码推荐理由:DeepSeek-V4新出的HyperDFlash框架,用门控缩减和蒸馏让推测解码提速,比MTP和DFlash都厉害。原文
01:02LMSYS Org (SGLang)@lmsysorg79°与NVIDIA合作,在GB300上使用SGLang服务DeepSeek-V4,实现5倍吞吐量提升(~2,200→~11,200 tok/s/GPU,交互性~50 tok/s/user)。借助MTP,在80 tok/s/user交互性下吞吐再提升2.6倍。Blackwell Ultra聚合模式下30 tok/s/user时吞吐提升2.91倍,峰值无MTP吞吐提升超6倍。采用W4A4 MegaMoE量化(MXFP4)且精度损失可忽略。单个FP8-einsum修复将MTP接受率从0.57提至0.70。AI模型DeepSeek-V4GB300SGLang推理优化NVIDIA8 个信源在谈推荐理由:想用SGLang在GB300上榨干DeepSeek-V4?NVIDIA合作实测,吞吐翻5倍,交互延迟不变,MTP和量化细节全公开。原文
20:16vLLM@vllm_project精选73°vLLM v0.23.0 包含 408 次提交,来自 200 位贡献者(63 位新贡献者)。主要亮点:DeepSeek-V4 在多个后端上成熟,引入 TRTLLM-gen attention 内核、与 V3.2 解耦的稀疏 MLA 以及用于 Mega-MoE 的 EPLB 调度。Model Runner V2 现已成为 Llama 和 Mistral 稠密模型的默认运行器。新增 Gemma 4 Unified(无编码器)及 MTP 支持。还提供了多层级 KV 缓存卸载(含对象存储层)和统一的推理与工具调用解析器。AI产品vLLMDeepSeek-V4LlamaGemma 4推理引擎4 个信源在谈推荐理由:vLLM v0.23.0 大更新,DeepSeek-V4 和 Llama 用户值得升级,新的 KV 缓存卸载能省显存,推理与工具调用解析也更顺了。原文
17:27IT之家(博客/媒体)腾讯云公告,DeepSeek-V3.2模型将于2026年7月16日00:00下线,届时不再提供接入服务。未迁移用户将由系统自动切换至DeepSeek最新模型。官方推荐迁移至能力更优的DeepSeek-V4系列模型。此前6月3日腾讯云已下调DeepSeek-V4系列价格,其中V4-Pro推理输入与输出价格降幅达75%,缓存命中价格降幅达97.5%,V4-Flash缓存命中价格降幅达90%。行业腾讯云DeepSeek-V3.2DeepSeek-V4模型迁移API服务1 个信源在谈推荐理由:腾讯云要停用DeepSeek-V3.2了,赶紧迁移到V4,价格还降了75%。原文
10:32arXiv: DeepSeek@Yan Wang, Qifan Zhang, Jiachen Yu, Tian Liang, Dongyang Ma, Xiang Hu, Zibo Lin, Chunyang Li, Zhichao Wang, Jia Li, Yujiu Yang, Haitao Mi, Dong Yu精选72°FlashMemory-DeepSeek-V4 提出了一种名为 Lookahead Sparse Attention (LSA) 的新型推理范式,通过神经记忆索引器预测未来上下文需求,仅保留关键 KV 块在 GPU 内存中。该架构采用解耦训练策略,将索引器作为独立双编码器训练,无需加载主模型。在 LongBench-v2、LongMemEval 等长上下文评测中,LSA 将物理 KV 缓存压缩至全上下文基线的 13.5%,同时下游准确率平均提升 0.6%。在 50 万 token 极端长度下,物理 KV 缓存开销降低超过 90%,且不损害模型核心推理能力。论文稀疏注意力长上下文KV缓存压缩DeepSeek-V4推理效率推荐理由:LSA 解决了超长上下文推理的 GPU 内存瓶颈,做长文档分析或大规模序列建模的团队可以直接参考其稀疏注意力方案,显著降低部署成本。原文
00:15IT之家(博客/媒体)腾讯云智能体开发平台宣布自2026年6月3日起,对DeepSeek-V4系列模型进行价格下调。其中DeepSeek-V4-Pro模型的推理输入与输出价格降幅达75%,缓存命中价格降幅高达97.5%;DeepSeek-V4-Flash模型的缓存命中价格降幅达90%。该系列模型总参数达1.6万亿,采用混合专家架构,原生支持100万Token上下文长度。此次降价是腾讯云在平台接入层面的进一步调整,此前DeepSeek官方已于5月23日宣布V4-Pro API永久降价。AI产品腾讯云DeepSeek-V4模型降价智能体API2 个信源在谈推荐理由:腾讯云大幅降低DeepSeek-V4系列模型调用成本,做AI应用开发或智能体集成的团队可以直接降低推理成本,缓存命中价格降幅高达97.5%,高频调用场景尤其划算,建议开发者抓紧调整预算。原文
08:06Julien Chaumond@julien_cNVIDIA 发布了 DeepSeek-V4-Pro-NVFP4 的修复版本,该模型基于 DeepSeek-V4 架构,采用 NVFP4 精度优化,旨在提升推理效率和性能。修复版解决了之前版本中的一些问题,使模型更加稳定可靠。对于使用 NVIDIA 硬件进行 AI 推理的开发者来说,这是一个值得关注的更新。AI模型DeepSeek-V4NVIDIANVFP4模型修复推理优化5 个信源在谈推荐理由:NVIDIA 官方修复版解决了 DeepSeek-V4 在自家硬件上的精度和稳定性问题,用 NVIDIA GPU 做推理的团队可以直接拉取使用,省去自己调优的麻烦。原文
15:39pandaily@contact@pandaily.com (Pandaily)精选76°Sphere AI Lab 开源了 Orbit,一个强化学习后训练框架,支持在单个 8×B200 节点上对万亿参数模型(如 DeepSeek-V4)进行微调。该框架通过优化内存和计算效率,大幅降低了大规模模型训练的门槛,使得资源有限的团队也能进行高效的后训练。Orbit 的发布解决了万亿参数模型训练需要大规模集群的痛点,有望推动更多研究者和开发者参与大模型的后训练优化。AI模型开源/仓库强化学习后训练万亿参数DeepSeek-V4推荐理由:Orbit 让万亿参数模型的后训练不再依赖大规模集群,做 RL 微调或大模型优化的团队可以直接在单节点上跑 DeepSeek-V4,建议试试这个开源方案。原文
08:40IT之家(博客/媒体)努比亚宣布,搭载星云AIOS 2.0的机型(包括Z60、Z70、Z80系列)现已支持DeepSeek-V4模型,无需更新系统版本即可使用。DeepSeek-V4拥有百万字超长上下文,在Agent能力、世界知识和推理性能上领先,已于今年4月开源。该功能覆盖广泛,用户可立即体验。AI产品努比亚星云AIOSDeepSeek-V4手机AI百万上下文推荐理由:努比亚用户无需等待系统更新就能用上百万上下文AI模型,做深度文档分析或复杂任务的用户可以直接试试,体验升级立竿见影。原文
13:37深度求索 DeepSeek@deepseek_ai78°DeepSeek 发布了 V4 Preview 版本,包含 Pro 和 Flash 两个模型,均支持 1M 上下文长度。Pro 版本总参数量 1.6T,激活参数 49B,性能对标全球顶级闭源模型;Flash 版本总参数量 284B,激活参数 13B,主打高效经济。模型权重和技术报告已开源,API 同步更新。这标志着开源大模型在长上下文和性价比上迈出重要一步。AI模型DeepSeek-V4开源/仓库长上下文推理模型性价比推荐理由:长上下文和低成本是当前 AI 应用的两大痛点,DeepSeek-V4 同时解决这两个问题,做 RAG、文档分析或长对话的开发者可以直接上手试试。原文