AITP
精选全部 AI 动态AI 日报Agent 接入关于更新日志信源提报反馈
登录 / 注册
AITOP
全部 AI 动态
AI 相关资讯全量信息流
全部博客资讯推文论文
全部模型产品行业论文技巧
标签:DeepSeek-V4×
6月29日
00:21
00:21berryxia@berryxia
精选73°
DeepSeek开源了DSpark投机解码框架,用于推理优化。DSpark通过并行backbone加顺序Markov head解决传统投机解码的后缀衰减问题,并引入置信度调度和负载感知调度器。在DeepSeek-V4生产环境中,单用户生成速度比MTP-1基线快60-85%,不同场景吞吐提升1.5x到5x。开源内容包括DeepSeek-V4-Pro-DSpark和DeepSeek-V4-Flash-DSpark模型checkpoint以及MIT协议的DeepSpec训练代码。
AI模型DeepSeekDSparkDeepSeek-V4投机解码推理优化

推荐理由:DeepSeek开源了DSpark框架,能让你的V4模型推理提速60%以上,且不影响质量。它解决了投机解码在真实部署中的难题,已经稳定跑在生产环境。
原文
6月24日
01:02
01:02LMSYS Org (SGLang)@lmsysorg
79°
与NVIDIA合作,在GB300上使用SGLang服务DeepSeek-V4,实现5倍吞吐量提升(~2,200→~11,200 tok/s/GPU,交互性~50 tok/s/user)。借助MTP,在80 tok/s/user交互性下吞吐再提升2.6倍。Blackwell Ultra聚合模式下30 tok/s/user时吞吐提升2.91倍,峰值无MTP吞吐提升超6倍。采用W4A4 MegaMoE量化(MXFP4)且精度损失可忽略。单个FP8-einsum修复将MTP接受率从0.57提至0.70。
AI模型DeepSeek-V4GB300SGLang推理优化NVIDIA

推荐理由:想用SGLang在GB300上榨干DeepSeek-V4?NVIDIA合作实测,吞吐翻5倍,交互延迟不变,MTP和量化细节全公开。
原文
6月16日
20:46
AITOP6月16日 20:46
600亿美元买下Cursor,xAI终于拿到了编程工具,但真正值得跟踪的或许不是AI600亿美元买下Cursor,xAI终于拿到了编程工具,但真正值得跟踪的或许不是AI
20:16
20:16vLLM@vllm_project
精选73°
vLLM v0.23.0 包含 408 次提交,来自 200 位贡献者(63 位新贡献者)。主要亮点:DeepSeek-V4 在多个后端上成熟,引入 TRTLLM-gen attention 内核、与 V3.2 解耦的稀疏 MLA 以及用于 Mega-MoE 的 EPLB 调度。Model Runner V2 现已成为 Llama 和 Mistral 稠密模型的默认运行器。新增 Gemma 4 Unified(无编码器)及 MTP 支持。还提供了多层级 KV 缓存卸载(含对象存储层)和统一的推理与工具调用解析器。
AI产品vLLMDeepSeek-V4LlamaGemma 4推理引擎

推荐理由:vLLM v0.23.0 大更新,DeepSeek-V4 和 Llama 用户值得升级,新的 KV 缓存卸载能省显存,推理与工具调用解析也更顺了。
原文
6月12日
12:57
AITOP6月12日 12:57
Claude代码里藏了个20260612,18个月后的AI记忆革命已经开始倒计时
6月11日
15:28
AITOP6月11日 15:28
1107 vs 303:谷歌悄悄开源了一个“拆打字机”的模型,把大模型速度翻了4倍
15:23
AITOP6月11日 15:23
DiffusionGemma颠覆文本生成?自回归模型的“统治”要结束了
15:07
AITOP6月11日 15:07
每秒1107个token,Google开源的扩散模型为什么能改变本地推理格局?
5月30日
08:06
08:06Julien Chaumond@julien_c
NVIDIA 发布了 DeepSeek-V4-Pro-NVFP4 的修复版本,该模型基于 DeepSeek-V4 架构,采用 NVFP4 精度优化,旨在提升推理效率和性能。修复版解决了之前版本中的一些问题,使模型更加稳定可靠。对于使用 NVIDIA 硬件进行 AI 推理的开发者来说,这是一个值得关注的更新。
AI模型DeepSeek-V4NVIDIANVFP4模型修复推理优化

推荐理由:NVIDIA 官方修复版解决了 DeepSeek-V4 在自家硬件上的精度和稳定性问题,用 NVIDIA GPU 做推理的团队可以直接拉取使用,省去自己调优的麻烦。
原文
5月14日
13:37
13:37深度求索 DeepSeek@deepseek_ai
78°
DeepSeek 发布了 V4 Preview 版本,包含 Pro 和 Flash 两个模型,均支持 1M 上下文长度。Pro 版本总参数量 1.6T,激活参数 49B,性能对标全球顶级闭源模型;Flash 版本总参数量 284B,激活参数 13B,主打高效经济。模型权重和技术报告已开源,API 同步更新。这标志着开源大模型在长上下文和性价比上迈出重要一步。
AI模型DeepSeek-V4开源/仓库长上下文推理模型性价比

推荐理由:长上下文和低成本是当前 AI 应用的两大痛点,DeepSeek-V4 同时解决这两个问题,做 RAG、文档分析或长对话的开发者可以直接上手试试。
原文
精选全部日报登录