全部 AI 动态 · AI 热点

6月29日

00:21

00:21

berryxia@berryxia

精选73°

DeepSeek开源了DSpark投机解码框架，用于推理优化。DSpark通过并行backbone加顺序Markov head解决传统投机解码的后缀衰减问题，并引入置信度调度和负载感知调度器。在DeepSeek-V4生产环境中，单用户生成速度比MTP-1基线快60-85%，不同场景吞吐提升1.5x到5x。开源内容包括DeepSeek-V4-Pro-DSpark和DeepSeek-V4-Flash-DSpark模型checkpoint以及MIT协议的DeepSpec训练代码。

AI模型 DeepSeek DSpark DeepSeek-V4 投机解码推理优化

推荐理由：DeepSeek开源了DSpark框架，能让你的V4模型推理提速60%以上，且不影响质量。它解决了投机解码在真实部署中的难题，已经稳定跑在生产环境。

6月24日

01:02

01:02

LMSYS Org (SGLang)@lmsysorg

79°

与NVIDIA合作，在GB300上使用SGLang服务DeepSeek-V4，实现5倍吞吐量提升（~2,200→~11,200 tok/s/GPU，交互性~50 tok/s/user）。借助MTP，在80 tok/s/user交互性下吞吐再提升2.6倍。Blackwell Ultra聚合模式下30 tok/s/user时吞吐提升2.91倍，峰值无MTP吞吐提升超6倍。采用W4A4 MegaMoE量化（MXFP4）且精度损失可忽略。单个FP8-einsum修复将MTP接受率从0.57提至0.70。

AI模型 DeepSeek-V4 GB300 SGLang 推理优化 NVIDIA

推荐理由：想用SGLang在GB300上榨干DeepSeek-V4？NVIDIA合作实测，吞吐翻5倍，交互延迟不变，MTP和量化细节全公开。

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

20:16

20:16

vLLM@vllm_project

精选73°

vLLM v0.23.0 包含 408 次提交，来自 200 位贡献者（63 位新贡献者）。主要亮点：DeepSeek-V4 在多个后端上成熟，引入 TRTLLM-gen attention 内核、与 V3.2 解耦的稀疏 MLA 以及用于 Mega-MoE 的 EPLB 调度。Model Runner V2 现已成为 Llama 和 Mistral 稠密模型的默认运行器。新增 Gemma 4 Unified（无编码器）及 MTP 支持。还提供了多层级 KV 缓存卸载（含对象存储层）和统一的推理与工具调用解析器。

AI产品 vLLM DeepSeek-V4 Llama Gemma 4 推理引擎

推荐理由：vLLM v0.23.0 大更新，DeepSeek-V4 和 Llama 用户值得升级，新的 KV 缓存卸载能省显存，推理与工具调用解析也更顺了。

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

5月30日

08:06

08:06

Julien Chaumond@julien_c

NVIDIA 发布了 DeepSeek-V4-Pro-NVFP4 的修复版本，该模型基于 DeepSeek-V4 架构，采用 NVFP4 精度优化，旨在提升推理效率和性能。修复版解决了之前版本中的一些问题，使模型更加稳定可靠。对于使用 NVIDIA 硬件进行 AI 推理的开发者来说，这是一个值得关注的更新。

AI模型 DeepSeek-V4 NVIDIA NVFP4 模型修复推理优化

推荐理由：NVIDIA 官方修复版解决了 DeepSeek-V4 在自家硬件上的精度和稳定性问题，用 NVIDIA GPU 做推理的团队可以直接拉取使用，省去自己调优的麻烦。

5月14日

13:37

13:37

深度求索 DeepSeek@deepseek_ai

78°

DeepSeek 发布了 V4 Preview 版本，包含 Pro 和 Flash 两个模型，均支持 1M 上下文长度。Pro 版本总参数量 1.6T，激活参数 49B，性能对标全球顶级闭源模型；Flash 版本总参数量 284B，激活参数 13B，主打高效经济。模型权重和技术报告已开源，API 同步更新。这标志着开源大模型在长上下文和性价比上迈出重要一步。

AI模型 DeepSeek-V4 开源/仓库长上下文推理模型性价比

推荐理由：长上下文和低成本是当前 AI 应用的两大痛点，DeepSeek-V4 同时解决这两个问题，做 RAG、文档分析或长对话的开发者可以直接上手试试。