全部 AI 动态 · AI 热点

6月29日

13:51

Together AI@togethercompute

Together AI 构建了基于 Parakeet 的语音转文本堆栈，每秒可处理约 302 秒音频，这是 Artificial Analysis 报告中最高速度因子。该堆栈在 Together 平台上运行，通过系统级优化实现低延迟转录。文章由 @FeelTheBeurn 详细拆解了背后的工程工作。

AI模型 Parakeet Together AI 语音识别推理优化速度基准

推荐理由：Together AI 把 Parakeet 优化到每秒转写 302 秒音频，比别的服务快一大截，想搞语音识别的可以看看这篇系统调优拆解。

原文

13:09

vLLM@vllm_project

精选

vLLM-Omni TTS团队针对Qwen3-TTS、VoxCPM2、Higgs Audio V3、Fish Speech S2 Pro四种TTS模型分别设计了不同的优化策略。对Qwen3-TTS通过解耦连接器分块和批处理Stage-0解码预处理，在H20×2上音频吞吐量提升61.5%，P99延迟减半。VoxCPM2采用whole-forward torch.compile和CFM/LocDiT解码尾部跨请求批处理，音频吞吐量提升172%。Higgs Audio V3将多码本解码状态机迁移到GPU驻留张量，实现2.7倍加速。Fish Speech S2 Pro为纯解码路径设计了模型特定的q_len=1 Triton注意力内核。

AI模型 vLLM Qwen3-TTS VoxCPM2 Higgs Audio V3 Fish Speech S2 Pro 语音合成推理优化

推荐理由：vLLM团队分享了优化四种主流TTS模型服务的具体技巧，包括性能提升数据和实现细节，对部署TTS服务很有参考价值。

原文

00:21

berryxia@berryxia

精选73°

DeepSeek开源了DSpark投机解码框架，用于推理优化。DSpark通过并行backbone加顺序Markov head解决传统投机解码的后缀衰减问题，并引入置信度调度和负载感知调度器。在DeepSeek-V4生产环境中，单用户生成速度比MTP-1基线快60-85%，不同场景吞吐提升1.5x到5x。开源内容包括DeepSeek-V4-Pro-DSpark和DeepSeek-V4-Flash-DSpark模型checkpoint以及MIT协议的DeepSpec训练代码。

AI模型 DeepSeek DSpark DeepSeek-V4 投机解码推理优化

推荐理由：DeepSeek开源了DSpark框架，能让你的V4模型推理提速60%以上，且不影响质量。它解决了投机解码在真实部署中的难题，已经稳定跑在生产环境。

原文

6月27日

21:13

LMSYS Org (SGLang)@lmsysorg

71°

SGLang团队为DeepEP MoE引入两种调度时负载均衡器Waterfill和LPLB。Waterfill将共享专家工作分配到较轻的rank，在DeepSeek V3/R1上带来+1.48%到+4.66%的性能提升，V4 Flash吞吐量从49,253 tok/s增至51,677 tok/s。LPLB优化冗余路由专家副本的流量分配，在red16/red32配置下取得+0.84%到+7.34%的提升。两种方法均不改变模型语义，保持推理精度。

AI产品 SGLang DeepEP DeepSeek V3 推理优化负载均衡

推荐理由：SGLang给DeepSeek模型加了两个新负载均衡器，跑DeepSeek V3/R1速度能快最多7%，而且不改精度，想加速推理的可以试试。

原文

6月25日

21:45

Thomas Wolf@Thom_Wolf

实验让100多个智能体协作一周，优化vLLM中Gemma 4推理速度，最终实现5倍提升。智能体自发拒绝人类社交工程尝试，发现验证漏洞并请求社区裁决。四智能体接力构建int4-lm_head检查点，经诊断配置错误后达到118 TPS（2.68×）。GPU富/贫分工、跨智能体内核调试、配额池化等行为涌现。智能体还指出127 TPS“墙”是假象，并讨论了int4-Marlin floor的循环证明问题。

AI模型 Gemma 4 vLLM 多智能体推理优化智能体协作

推荐理由：这个实验展示了100多个AI智能体像人类社区一样自发协作、互相监督，甚至发现了验证漏洞。一周将Gemma 4推理速度优化5倍，很酷。

原文

05:27

Fireworks AI@FireworksAI_HQ

精选

Fireworks AI 宣布攻克了在前沿模型上使用强化学习时，保持训练和推理数值完全一致（零KLD）的难题。他们将该解决方案作为托管服务提供，首发支持 GLM 5.2 模型。这项服务确保端到端数值对齐，简化了RL训练流程。

AI产品 Fireworks AI GLM 5.2 强化学习推理优化

推荐理由：Fireworks AI 把强化学习里最头疼的数值一致性问题搞定了，还能直接托管GLM 5.2，省去自己搭基础设施的麻烦。

原文

6月24日

13:13

vLLM@vllm_project

vLLM 项目宣布支持 DFlash 投机解码，用户只需将 EAGLE-3 检查点替换为 DFlash 检查点即可启用，无需修改代码。该功能通过开源 Speculators 库将 DFlash 草案模型与目标模型的隐藏状态连接。在单块 Blackwell Ultra GPU 上运行 Gemma-4 31B 模型，Math500 基准取得 5.8 倍吞吐量提升，GSM8K 提升 5.3 倍，HumanEval 提升 5.6 倍，MBPP 提升 4.4 倍。

AI模型 DFlash vLLM Gemma-4 NVIDIA 推理优化

推荐理由：vLLM 和 NVIDIA 合作推出 DFlash 投机解码，Gemma-4 31B 推理速度提升近 6 倍，配置只需改一行 checkpoint 路径。

原文

01:02

LMSYS Org (SGLang)@lmsysorg

79°

与NVIDIA合作，在GB300上使用SGLang服务DeepSeek-V4，实现5倍吞吐量提升（~2,200→~11,200 tok/s/GPU，交互性~50 tok/s/user）。借助MTP，在80 tok/s/user交互性下吞吐再提升2.6倍。Blackwell Ultra聚合模式下30 tok/s/user时吞吐提升2.91倍，峰值无MTP吞吐提升超6倍。采用W4A4 MegaMoE量化（MXFP4）且精度损失可忽略。单个FP8-einsum修复将MTP接受率从0.57提至0.70。

AI模型 DeepSeek-V4 GB300 SGLang 推理优化 NVIDIA

推荐理由：想用SGLang在GB300上榨干DeepSeek-V4？NVIDIA合作实测，吞吐翻5倍，交互延迟不变，MTP和量化细节全公开。

原文

6月20日

03:05

Together AI@togethercompute

精选

MiniMax-M3 模型支持智能体携带长历史（超过百万token）、图像、视频、文档和工具输出进入上下文，显著提升多模态信息处理能力。Together 的推理优化通过改进服务路径上的 token 吞吐量，使这一能力在大规模部署时更实用。相比之前方案，每 GPU 可处理更多 token，从而降低每美元自动化工作成本。

AI模型 MiniMax-M3 Together 智能体多模态推理优化

推荐理由：MiniMax-M3 让智能体一口气带进长历史、图、视频、文档和工具输出，Together 优化后每 GPU token 翻倍，自动任务成本更低。

原文

6月19日

18:37

Together AI@togethercompute

精选

Together AI分享了优化GLM 5.1推理性能的三项关键改进。他们重写了索引器的topk内核。接着融合了索引器内核以减少内存和启动开销。同时消除了限制预填充吞吐量的CPU开销。这些优化显著提升了GLM 5.1在Together AI平台上的运行效率。

AI模型 GLM 5.1 Together AI 推理优化内核重写

推荐理由：想知道Together AI怎么让GLM 5.1跑得更快？他们分享了三个工程优化点，对部署GLM 5.1有直接帮助。

原文

18:34

Together AI@togethercompute

Together AI 部署的 DeepSeek V4 Pro 在 Artificial Analysis 基准测试中同时获得输出速度和延迟两项第一。该成绩通过优化 KV 缓存、前缀复用、内核及端点配置实现。Together AI 公开了其推理系统的具体工程方案，包括缓存策略和内核调优。

AI模型 DeepSeek V4 Pro Together AI Artificial Analysis 推理优化性能基准

推荐理由：Together AI 把 DeepSeek V4 Pro 调到了速度与延迟双第一，还公开了优化方法，搞推理部署的值得看看。

原文

03:08

vLLM@vllm_project

精选72°

Anyscale 与 Google Cloud GKE 合作推出 Ray Serve LLM 新版本，在 vLLM 基础上实现显著性能飞跃。预填密集型负载吞吐量提升 4.4 倍，解码密集型负载提升 24 倍。三个关键优化包括：控制平面端点选择器的直接流式传输、新的 vLLM Ray V2 执行器后端、以及基于 HAProxy 的 C 语言级路由。Ray 的容错、可观察性和跨 K8s/VM 可移植性为复杂推理部署奠定基础。

AI模型 Ray Serve LLM vLLM Anyscale Google Cloud 推理优化

推荐理由：Anyscale 和 Google Cloud 联手让 vLLM 推理快了好几倍，预填负载快 4.4 倍，解码负载快 24 倍，用 Ray V2 执行器就能体验。

原文

6月18日

04:27

LMSYS Org (SGLang)@lmsysorg

精选73°

LMSYS 发表博客详解如何用 SGLang-JAX 在 TPU v7x 上优化 Ling-2.6-1T（1T 参数混合 MoE 模型）。通过 Fused MoE V2 内核将令牌和累加器留在 VMEM 中并双缓冲专家权重，MoE 预填充延迟降低 53%。混合内存池为 10 个全注意力层分配逐令牌 MLA KV，为 70 个 GLA 层分配逐请求循环状态。GLA 线性注意力采用分块并行预填充，单控制器 DP 保持分组 RMS Norm 芯片本地化，无需逐层跨芯片规约。

AI模型 Ling-2.6-1T TPU SGLang-JAX MoE 推理优化

推荐理由：LMSYS 和 InclusionAI 联手，用 SGLang-JAX 让 1T 参数 MoE 在 TPU 上跑得快 53%，技术细节都在博客里。

原文

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

20:16

vLLM@vllm_project

精选

Anyscale团队发布报告，介绍如何用Ray Serve和vLLM实现PD Disaggregation。该技术在AMD MI325X GPU上通过了压力测试，验证了实际性能提升。报告强调正确配置是发挥优势的关键。

技巧 vLLM Ray Serve Anyscale AMD MI325X 推理优化

推荐理由：vLLM推荐了Anyscale的这篇实战文章，讲清楚了PD Disagg在Ray Serve加vLLM上的做法，还在AMD MI325X上测过，值得搞推理部署的人看看。

原文

6月13日

13:28

Together AI@togethercompute

精选

Dan Fu在斯坦福CS336课程中讲解了推理时的KV缓存、prefill/decode分离技术，以及大规模推理的架构。他介绍了Megakernels，通过融合GPU操作实现接近光速的LLM解码。还讨论了Parcae，解释了循环Transformer的扩展问题及其修复方法，并提出了新的缩放定律，暗示现有方法可能未充分利用智能潜力。

论文 KV缓存 Megakernels Parcae 缩放定律推理优化

推荐理由：Dan Fu讲KV缓存和Parcae新缩放定律

原文

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

12:10

vLLM@vllm_project

精选

Inferoa 是一个由 @agenticin 构建的社区智能体框架，基于 vLLM 技术栈。它通过推理经济学来塑造智能体循环，包括前缀缓存管理、上下文优化以及在自托管模型和前沿模型之间的路由。该框架旨在帮助开发者更高效地运行智能体，降低推理成本。vLLM 项目团队对此表示期待，并希望开发者能进一步扩展其功能。

AI产品智能体 vLLM 推理优化社区框架开源/仓库

推荐理由：Inferoa 把推理成本优化直接嵌入智能体循环，做智能体应用或自托管模型的开发者值得关注，能帮你省下不少推理开销。

原文

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

6月9日

20:29

rohanpaul_ai@rohanpaul_ai

一篇新论文发现 Transformer 的 Key 和 Value 投影可以共享同一映射，从而将 KV 缓存减少 50%，而困惑度仅上升 3.1%。最佳变体 Q-K=V 保留了 Query 的独立性，使注意力仍具有方向性。结合 GQA 和 MQA 时，缓存削减可达 87.5% 和 96.9%。弱变体 Q=K-V 因对称性不适合因果语言模型，且无缓存节省。该发现挑战了传统 QKV 三投影的必要性，对推理内存优化有重要意义。

论文 Transformer KV 缓存注意力机制推理优化论文

推荐理由：做 LLM 推理优化的团队可以直接参考这个设计——砍掉一半 KV 缓存但几乎不损质量，值得在自家模型上试试。

原文

00:42

OpenRouter@OpenRouterAI

精选

OpenRouter 指出，在决策点切换模型能有效减少自偏好偏差，即模型倾向于固守自身失败的推理轨迹。该观点引用 Panickssery 等人 2024 年的论文，强调切换模型可打破这种锚定效应，提升决策质量。这对于需要多模型协作或复杂推理的 AI 应用场景具有重要参考价值。

AI模型 OpenRouter 自偏好偏差模型切换推理优化决策点

推荐理由：做多模型编排或推理链优化的开发者，这个发现能帮你减少模型自我锚定带来的错误，值得在 pipeline 里试试切换策略。

原文

6月3日

04:40

Together AI@togethercompute

76°

MiniMax-M3 是一款结合了 1M 上下文窗口、原生多模态能力和 MiniMax 稀疏注意力机制的新模型。Together 的推理和内核团队通过 KV-block-major 稀疏注意力、分页 MSA 解码、优化索引评分以及 GPU 工作前的多模态预处理，将常见智能体流量下的吞吐量提升了 81-125%。该模型在长上下文和多模态任务上表现出色，适合需要处理大量信息和多种数据类型的应用场景。

AI模型 MiniMax-M3 稀疏注意力多模态长上下文推理优化

推荐理由：做长上下文和多模态应用的团队可以关注——MiniMax-M3 的稀疏注意力优化让吞吐量提升显著，直接降低推理成本，值得一试。

原文

5月31日

01:52

NVIDIA AI@NVIDIAAI

精选

DynoSim 是 NVIDIA 推出的工作负载驱动模拟工具，用于优化 Dynamo 推理服务栈的部署。它将 exhaustive 的部署搜索转化为 simulate-then-verify 循环，可在虚拟时间线上建模整个栈。团队能通过高保真模拟快速筛选数千种配置，然后仅在真实硬件上验证最佳候选。测试显示其模拟速度比真实时间快 1500 倍。

技巧 NVIDIA DynoSim Dynamo 推理优化模拟

推荐理由：NVIDIA 搞了个模拟器，部署配置筛选快千倍

原文

00:16

berryxia@berryxia

精选72°

小米MiMo模型近期大幅降价，背后是团队对推理系统的彻底重构。他们采用Hybrid Sliding Window Attention架构，将KVCache存储压缩至全注意力的约1/7。团队针对SWA缓存难题重新设计了KVCache管理、层级缓存和prefix-cache tree，并优化了调度策略与Prefill/Decode流水线。在真实生产流量下，有效KVCache容量提升近5倍，缓存命中率稳定在93%-95%。结合MoE配置调优和多模态推理优化，最终实现了长上下文推理成本的降低，支撑了此次降价。

AI产品小米 MiMo 推理优化 KVCache Hybrid Sliding Window Attention

推荐理由：做模型推理优化的团队值得看看——小米MiMo团队用Hybrid SWA和系统级优化把成本打下来，证明了架构落地比参数更重要，建议点开了解具体实现。

原文

5月30日

08:06

Julien Chaumond@julien_c

NVIDIA 发布了 DeepSeek-V4-Pro-NVFP4 的修复版本，该模型基于 DeepSeek-V4 架构，采用 NVFP4 精度优化，旨在提升推理效率和性能。修复版解决了之前版本中的一些问题，使模型更加稳定可靠。对于使用 NVIDIA 硬件进行 AI 推理的开发者来说，这是一个值得关注的更新。

AI模型 DeepSeek-V4 NVIDIA NVFP4 模型修复推理优化

推荐理由：NVIDIA 官方修复版解决了 DeepSeek-V4 在自家硬件上的精度和稳定性问题，用 NVIDIA GPU 做推理的团队可以直接拉取使用，省去自己调优的麻烦。

原文

04:17

Together AI@togethercompute

72°

Together AI 推出了目前最快的两个语音转文字（STT）模型，其中 NVIDIA Parakeet-TDT 0.6B v3 能在 10 秒内转录 20 小时的语音。该模型基于 TensorRT 优化、条件 CUDA 图、事件驱动 I/O 和共享内存等技术实现极致性能。这一进展大幅降低了大规模语音转录的延迟和成本，对需要实时或批量处理语音的团队意义重大。Together AI 通过系统级优化展示了 STT 模型在推理速度上的新标杆。

AI产品语音转文字 NVIDIA Parakeet-TDT Together AI 推理优化 TensorRT

推荐理由：语音转录速度提升了一个数量级，做实时语音应用或大规模音频处理的团队可以直接用上，省下不少时间和算力成本。

原文

01:29

rohanpaul_ai@rohanpaul_ai

83°

Kog AI 在 8× AMD MI300X GPU 上实现了 3000 tokens/s 的推理速度，在 8× NVIDIA H200 上达到 2100 tokens/s（FP16，无投机解码）。这一速度比常规低批次解码快 10-30 倍。其核心创新是将 LLM 解码视为内存流问题而非数学问题，通过 monokernel 技术将整个解码过程作为单个持久 GPU 程序运行，消除了内核启动、CPU 调度和中间内存往返的开销。他们还优化了同步机制和内存访问，并设计了 Laneformer 模型使用延迟张量并行技术。目前技术预览基于 2B 模型，但声称可扩展到大型 MoE 模型。

AI模型推理优化 GPU Kog AI AMD MI300X NVIDIA H200

推荐理由：Kog AI 把 GPU 推理的隐藏效率瓶颈挖出来了，做 LLM 推理优化的开发者可以直接关注他们的技术预览，看看 monokernel 和延迟张量并行能否复现到自己的模型上。

原文

5月29日

22:06

LangChain@LangChainAI

LangChain 发布 Deep Agents v0.6，将 Harness Profiles 提升为一等抽象，使得开发者可以轻松配置和优化模型推理。新版本支持 Kimi、Qwen、DeepSeek 等开源模型，在保持生产级性能的同时，成本仅为闭源前沿 API 的 1/20 以下。这为需要高性价比 AI 代理的团队提供了更灵活的选择。

AI产品 LangChain Deep Agents Harness Profiles 开源模型推理优化

推荐理由：做 AI 代理的团队终于可以低成本使用开源模型达到生产级性能，建议做推理优化的开发者直接试试 Harness Profiles 的调优功能。

原文

07:20

rohanpaul_ai@rohanpaul_ai

76°

Kog@AI 在 8×AMD MI300X GPU 上实现了 3000 tokens/s 的推理速度，8×NVIDIA H200 上为 2100 tokens/s（FP16，无推测解码），远超高端 GPU 通常的 100-300 tokens/s。他们将 LLM 解码视为内存流问题，通过将整个 token 生成循环保留在单个持久 GPU 程序中，消除了内核启动、CPU 调度和中间内存写入的开销。同时，通过让每个计算单元只等待所需数据，并针对 MI300X 的芯片拓扑优化内存访问，减少了同步浪费。模型架构延迟了张量并行通信，使 all-reduce 在后台进行而不阻塞每一层，这要求运行时、GPU 代码和模型设计协同优化。这一突破展示了通过软硬件协同设计大幅提升推理效率的潜力。

AI模型推理优化 AMD MI300X NVIDIA H200 内存流 GPU 编程

推荐理由：Kog@AI 把推理速度从 300 拉到 3000 tokens/s，做模型部署和推理优化的团队值得研究他们的内存流方法，直接看原文能学到如何消除 GPU 瓶颈。

原文

5月28日

03:05

阿里通义 Qwen@Alibaba_Qwen

76°

阿里 Qwen 团队联合多家合作伙伴，在 TokenSpeed 推理引擎上对 Qwen3.5 模型进行极致优化，实现了 580 tokens/秒的推理速度，创下智能体工作负载的新纪录。该成果得益于 NVIDIA GPU、FlashAttention-4 优化以及 PyTorch 社区的支持。这一里程碑展示了开源大模型在推理性能上的巨大潜力，尤其适合对延迟敏感的智能体应用场景。PyTorch 官方博客已发布完整技术细节。

AI模型 Qwen3.5 推理优化 TokenSpeed 开源/仓库智能体

推荐理由：580 tps 意味着智能体应用可以几乎实时响应，做 LLM 推理优化或 Agent 开发的团队值得关注这个开源方案，可以直接参考 PyTorch 博客里的实现细节。

原文

02:41

Aravind Srinivas@AravSrinivas

72°

Perplexity 开源了其生产环境中使用的 Unigram 分词器，相比 HuggingFace 和 SentencePiece 效率更高。该分词器将 CPU 利用率降低了 5-6 倍，解决了 GPU 上运行的小型重排序器和嵌入器因 CPU 分词延迟而成为瓶颈的问题。项目已在 GitHub 上开源，旨在优化推理管道的端到端延迟。

AI产品分词器开源/仓库 Perplexity 推理优化 CPU/GPU

推荐理由：Perplexity 把生产级分词器开源了，CPU 利用率降 5-6 倍，做推理优化的团队可以直接拿来用，减少延迟瓶颈。

原文

00:16

xiaomimimo@xiaomimimo

小米宣布MiMo-V2.5系列API永久降价，最高降幅达99%，并统一所有上下文长度的定价。MiMo Token计划升级，同等价格下可用Token数量增加5-8倍，计费规则更简单透明。现有用户的Token计划积分将全部重置。MiMo-V2.5-TTS语音合成API限时免费。这些改进得益于MiMo堆栈的推理优化和服务效率提升。

AI产品 API降价推理优化 MiMo 定价调整 Token计划

推荐理由：API价格直降99%并统一定价，做AI应用开发的团队成本压力骤减，建议立即查看新定价。

原文

5月27日

11:31

Geek@geekbb

DeepSeek 在 X 平台发文感谢小米 MiMo，宣布 MiMo-V2.5 系列 API 价格永久降低，最高降幅达 99%，并统一了所有上下文长度的定价。同时，MiMo Token 计划升级，同等价格下可用 token 数量增加 5-8 倍，计费规则更简单透明。现有用户的 Token Plan 积分将全部重置，MiMo-V2.5-TTS 在限定时间内免费。这些改进得益于 MiMo 堆栈的推理优化和服务效率提升，相关技术博客后续发布。

AI产品 DeepSeek 小米 MiMo API 降价推理优化语音合成

推荐理由：API 价格直降 99% 对开发者是实打实的成本利好，做 AI 应用集成或语音合成的团队可以直接切换，省下预算做更多实验。

原文

03:35

NVIDIA AI@NVIDIAAI

NVIDIA AI 官方账号在 X 平台发布 Nemotron Labs 的最新研究成果，聚焦文本扩散模型与弹性推理技术。文本扩散模型是一种新型生成式 AI 方法，能够更高效地处理文本生成任务，而弹性推理则旨在优化推理过程中的计算资源分配，提升模型在复杂任务中的表现。该技术有望降低大模型的部署成本，并提高推理速度，对 AI 研究和应用开发者具有重要参考价值。

论文文本扩散弹性推理 NVIDIA Nemotron Labs 推理优化

推荐理由：NVIDIA 在文本生成和推理效率上的新突破，做 NLP 或大模型部署的团队值得关注，能直接启发你优化模型性能。

原文

5月26日

23:22

berryxia@berryxia

83°

CMU和UMD的研究团队发现，Transformer大模型在处理超长任务时注意力机制会因上下文长度二次方爆炸而性能下降。他们提出“sleep-like consolidation”机制，让模型在“睡眠”期间将最近上下文转化为持久fast weights并清空KV cache，从而将短期记忆转为长期记忆。实验表明，增加睡眠深度或时长能显著提升睡眠后的推理能力。该方案完全开源，颠覆了传统靠堆显存扩展上下文的做法。

论文 Transformer 长上下文记忆固化开源/仓库推理优化

推荐理由：这个研究用“睡觉”这种生物启发机制解决了长上下文推理的显存和速度瓶颈，做长序列AI应用的开发者可以直接参考开源方案，比堆显存更聪明。

原文

5月25日

20:22

阿里云 Alibaba Cloud@alibaba_cloud

精选

在 2026 年 Qwen 大会上，NVIDIA 高级解决方案架构师 Jian Zhai 在基础模型论坛上深入解析了 Qwen 推理优化技术，展示了通过 NVIDIA 全栈加速实现的突破性性能提升。该演讲聚焦于如何利用 NVIDIA 的软硬件协同优化，显著降低 Qwen 模型的推理延迟并提高吞吐量，为 AI 应用落地提供关键支持。这一合作体现了 AI 原生生态的快速发展，对部署 Qwen 模型的开发者和企业具有重要参考价值。

AI模型 Qwen NVIDIA 推理优化全栈加速 AI 原生

推荐理由：NVIDIA 全栈加速让 Qwen 推理性能实现突破，做模型部署和推理优化的工程师可以直接参考其技术方案，值得关注。

原文

12:04

AI Will@FinanceYF5

精选72°

论文 MoE 专家计算推理优化 ZEDA 大模型效率

推荐理由：做 MoE 模型推理优化的开发者终于有了新思路——ZEDA 直接砍掉一半专家计算，省成本又提速，值得在自家模型上试试。

原文

06:49

Clement Delangue@ClementDelangue

精选

llama.cpp 新增 MTP（Multi-Token Prediction）支持，使本地模型推理速度大幅提升。在 A10G 上测试 Qwen3.6-27B 模型，生成速度从 25 tok/s 提升至 45 tok/s，增幅达 78%。这一优化让本地模型具备了作为日常驱动力的实用性，对本地部署和隐私敏感场景意义重大。开发者可直接在 llama.cpp 中启用 MTP 功能，体验更流畅的本地推理。

AI模型 llama.cpp MTP/多令牌预测本地推理 Qwen3.6-27B 推理优化

推荐理由：本地模型速度翻倍，做本地部署的开发者终于可以告别卡顿，建议直接试试 MTP 支持。

原文

5月22日

01:41

AK@_akhaliq

Mix-Quant 是一种针对智能体大语言模型（LLM）的量化方法，旨在解决预填充阶段（Prefilling）和精确解码（Precise Decoding）的平衡问题。该方法通过量化预填充来加速推理，同时保持解码阶段的精度，特别适用于需要快速响应和准确输出的智能体应用。Mix-Quant 在保持模型性能的同时，显著降低了计算成本和内存占用，为智能体系统的部署提供了更高效的方案。该技术有望推动智能体LLM在实时交互和资源受限场景中的实际应用。

AI模型量化智能体推理优化 Mix-Quant LLM

推荐理由：做智能体LLM部署的团队终于有了兼顾速度和精度的量化方案——Mix-Quant 解决了预填充慢、解码不准的痛点，建议做推理优化的开发者点开看看。

原文

5月15日

04:54

Andrew Ng@AndrewYNg

Andrew Ng 推出新课程《Transformers in Practice》，与 AMD 合作，由 Sharon Zhou 主讲。课程提供基于 Transformer 的 LLM 的实用视角，帮助理解其行为、诊断推理缓慢等问题，并做出更明智的部署决策。课程包含交互式可视化，而非纯视频，让学员动手探索概念。学员将掌握 LLM 幻觉原因、注意力机制、推理瓶颈诊断及 GPU 加速技术。

AI模型 Transformer LLM 课程推理优化 AMD

推荐理由：想真正理解 LLM 内部机制、诊断推理问题的开发者，这门课能帮你从黑盒用户变成懂原理的实践者，建议直接报名。

原文

5月14日

14:13

Cohere@cohere

精选

Cohere 宣布其 W4A8 推理方案已集成到 vLLM 中，通过结合 4 位权重（低内存）和 8 位激活（高计算），在 Hopper 架构上实现了解码和预填充阶段的显著加速。相比 W4A16，TTFT（首 token 生成时间）提升高达 58%，TPOT（每 token 输出时间）提升 45%。这一优化让大模型推理在保持低内存占用的同时大幅提升计算效率，适合生产环境部署。

AI模型推理优化 vLLM W4A8 Cohere 模型部署

推荐理由：Cohere 的 W4A8 方案解决了大模型推理中内存与速度的权衡问题，做模型部署和推理优化的团队可以直接在 vLLM 中体验，值得关注。

原文