13:09vLLM@vllm_project精选vLLM-Omni TTS团队针对Qwen3-TTS、VoxCPM2、Higgs Audio V3、Fish Speech S2 Pro四种TTS模型分别设计了不同的优化策略。对Qwen3-TTS通过解耦连接器分块和批处理Stage-0解码预处理,在H20×2上音频吞吐量提升61.5%,P99延迟减半。VoxCPM2采用whole-forward torch.compile和CFM/LocDiT解码尾部跨请求批处理,音频吞吐量提升172%。Higgs Audio V3将多码本解码状态机迁移到GPU驻留张量,实现2.7倍加速。Fish Speech S2 Pro为纯解码路径设计了模型特定的q_len=1 Triton注意力内核。AI模型vLLMQwen3-TTSVoxCPM2Higgs Audio V3Fish Speech S2 Pro语音合成推理优化推荐理由:vLLM团队分享了优化四种主流TTS模型服务的具体技巧,包括性能提升数据和实现细节,对部署TTS服务很有参考价值。原文
00:21berryxia@berryxia精选73°DeepSeek开源了DSpark投机解码框架,用于推理优化。DSpark通过并行backbone加顺序Markov head解决传统投机解码的后缀衰减问题,并引入置信度调度和负载感知调度器。在DeepSeek-V4生产环境中,单用户生成速度比MTP-1基线快60-85%,不同场景吞吐提升1.5x到5x。开源内容包括DeepSeek-V4-Pro-DSpark和DeepSeek-V4-Flash-DSpark模型checkpoint以及MIT协议的DeepSpec训练代码。AI模型DeepSeekDSparkDeepSeek-V4投机解码推理优化推荐理由:DeepSeek开源了DSpark框架,能让你的V4模型推理提速60%以上,且不影响质量。它解决了投机解码在真实部署中的难题,已经稳定跑在生产环境。原文
05:27Fireworks AI@FireworksAI_HQ精选Fireworks AI 宣布攻克了在前沿模型上使用强化学习时,保持训练和推理数值完全一致(零KLD)的难题。他们将该解决方案作为托管服务提供,首发支持 GLM 5.2 模型。这项服务确保端到端数值对齐,简化了RL训练流程。AI产品Fireworks AIGLM 5.2强化学习推理优化推荐理由:Fireworks AI 把强化学习里最头疼的数值一致性问题搞定了,还能直接托管GLM 5.2,省去自己搭基础设施的麻烦。原文
03:05Together AI@togethercompute精选MiniMax-M3 模型支持智能体携带长历史(超过百万token)、图像、视频、文档和工具输出进入上下文,显著提升多模态信息处理能力。Together 的推理优化通过改进服务路径上的 token 吞吐量,使这一能力在大规模部署时更实用。相比之前方案,每 GPU 可处理更多 token,从而降低每美元自动化工作成本。AI模型MiniMax-M3Together智能体多模态推理优化2 个信源在谈推荐理由:MiniMax-M3 让智能体一口气带进长历史、图、视频、文档和工具输出,Together 优化后每 GPU token 翻倍,自动任务成本更低。原文
18:37Together AI@togethercompute精选Together AI分享了优化GLM 5.1推理性能的三项关键改进。他们重写了索引器的topk内核。接着融合了索引器内核以减少内存和启动开销。同时消除了限制预填充吞吐量的CPU开销。这些优化显著提升了GLM 5.1在Together AI平台上的运行效率。AI模型GLM 5.1Together AI推理优化内核重写推荐理由:想知道Together AI怎么让GLM 5.1跑得更快?他们分享了三个工程优化点,对部署GLM 5.1有直接帮助。原文
03:08vLLM@vllm_project精选72°Anyscale 与 Google Cloud GKE 合作推出 Ray Serve LLM 新版本,在 vLLM 基础上实现显著性能飞跃。预填密集型负载吞吐量提升 4.4 倍,解码密集型负载提升 24 倍。三个关键优化包括:控制平面端点选择器的直接流式传输、新的 vLLM Ray V2 执行器后端、以及基于 HAProxy 的 C 语言级路由。Ray 的容错、可观察性和跨 K8s/VM 可移植性为复杂推理部署奠定基础。AI模型Ray Serve LLMvLLMAnyscaleGoogle Cloud推理优化推荐理由:Anyscale 和 Google Cloud 联手让 vLLM 推理快了好几倍,预填负载快 4.4 倍,解码负载快 24 倍,用 Ray V2 执行器就能体验。原文
04:27LMSYS Org (SGLang)@lmsysorg精选73°LMSYS 发表博客详解如何用 SGLang-JAX 在 TPU v7x 上优化 Ling-2.6-1T(1T 参数混合 MoE 模型)。通过 Fused MoE V2 内核将令牌和累加器留在 VMEM 中并双缓冲专家权重,MoE 预填充延迟降低 53%。混合内存池为 10 个全注意力层分配逐令牌 MLA KV,为 70 个 GLA 层分配逐请求循环状态。GLA 线性注意力采用分块并行预填充,单控制器 DP 保持分组 RMS Norm 芯片本地化,无需逐层跨芯片规约。AI模型Ling-2.6-1TTPUSGLang-JAXMoE推理优化推荐理由:LMSYS 和 InclusionAI 联手,用 SGLang-JAX 让 1T 参数 MoE 在 TPU 上跑得快 53%,技术细节都在博客里。原文
20:16vLLM@vllm_project精选Anyscale团队发布报告,介绍如何用Ray Serve和vLLM实现PD Disaggregation。该技术在AMD MI325X GPU上通过了压力测试,验证了实际性能提升。报告强调正确配置是发挥优势的关键。技巧vLLMRay ServeAnyscaleAMD MI325X推理优化推荐理由:vLLM推荐了Anyscale的这篇实战文章,讲清楚了PD Disagg在Ray Serve加vLLM上的做法,还在AMD MI325X上测过,值得搞推理部署的人看看。原文
13:28Together AI@togethercompute精选Dan Fu在斯坦福CS336课程中讲解了推理时的KV缓存、prefill/decode分离技术,以及大规模推理的架构。他介绍了Megakernels,通过融合GPU操作实现接近光速的LLM解码。还讨论了Parcae,解释了循环Transformer的扩展问题及其修复方法,并提出了新的缩放定律,暗示现有方法可能未充分利用智能潜力。论文KV缓存MegakernelsParcae缩放定律推理优化推荐理由:Dan Fu讲KV缓存和Parcae新缩放定律原文
12:10vLLM@vllm_project精选Inferoa 是一个由 @agenticin 构建的社区智能体框架,基于 vLLM 技术栈。它通过推理经济学来塑造智能体循环,包括前缀缓存管理、上下文优化以及在自托管模型和前沿模型之间的路由。该框架旨在帮助开发者更高效地运行智能体,降低推理成本。vLLM 项目团队对此表示期待,并希望开发者能进一步扩展其功能。AI产品智能体vLLM推理优化社区框架开源/仓库推荐理由:Inferoa 把推理成本优化直接嵌入智能体循环,做智能体应用或自托管模型的开发者值得关注,能帮你省下不少推理开销。原文
11:30arXiv cs.AI@Cheng-Yu Yang, Shao-Yuan Lo, Yu-Lun Liu精选视觉语言模型(VLM)将图像投影为数百到数千个视觉令牌,导致解码器推理成本高昂。现有方法通常采用“排序并移除”范式,永久丢弃低分令牌。但研究发现,视觉令牌的重要性会随解码器深度变化,早期低分令牌可能在后续层变得重要。为此,研究者提出Reroute,一种无需训练的插件,将移除改为可恢复路由:被延迟的令牌在后续阶段重新进入候选池。该方法在FastV、PDrop等方案上,在LLaVA-1.5和Qwen骨干上,在激进令牌缩减下提升了接地性能,同时保持VQA性能。这表明VLM令牌缩减应视为可恢复路由,而非不可逆修剪。代码已开源。论文视觉语言模型令牌缩减可恢复路由推理优化开源/仓库推荐理由:VLM推理成本高是实际部署的痛点,Reroute用零训练代价解决了令牌缩减中信息丢失的问题,做多模态模型优化或部署的团队可以直接集成到现有方案中,值得一试。原文
09:08arXiv: DeepSeek@Wenxin Wang, Yule Hou, Yu Ji, Peng Qu, Youhui Zhang精选72°本地部署大型混合专家模型(MoE)在服务质量上远不及云端环境,即使低并发场景也存在四大差距:依赖降级模型、无法满足长预填充的30秒TTFT、解码吞吐量低于20 tokens/s、混合负载下并发能力差。本文提出CPU-GPU混合系统,通过流式加载预填充(SLP)将预填充吞吐提升至1200 tokens/s,支持32K提示词在30秒内完成;分布式SLP(DSLP)结合SmallEP专家并行,在双RTX 5090上达到1800 tokens/s和45K提示词;以及零拷贝共享权重的节点内预填充-解码分离、AVX-512优化的FP8 GEMV内核等技术。该系统在消费级CPU-GPU平台上实现了旗舰MoE模型的云级服务质量,无需数据中心基础设施即可获得高质量、低成本的本地推理。论文MoE模型CPU-GPU混合推理优化本地部署SLO推荐理由:本地跑MoE大模型终于能追上云端的服务质量了——做本地部署的开发者可以直接参考这套CPU-GPU混合方案,不用再忍受降级模型和低吞吐。原文
10:59arXiv cs.AI@Hetvi Shastri, Pragya Sharma, Walid A. Hanafy, David Irwin, Mani Srivastava, Prashant Shenoy精选现有大模型服务系统将每个定制任务部署为独立模型实例,导致骨干模型重复部署、加速器内存浪费,且无法分摊批处理和加载成本。FMplex 提出一种新范式,将大模型骨干视为虚拟化基础,为每个任务提供逻辑上私有的虚拟大模型(vFM),实际共享同一物理骨干。该方案支持任务独立扩展、生命周期和隔离性,并设计了批感知公平队列调度器,实现任务间和任务内的批处理。在 7 个骨干模型(16 个变体)和 92 个下游任务上,FMplex 相比空间分区降低延迟 80%,相比尽力共置降低 33.3%,集群规模下可承载多达 6 倍的任务数。论文模型服务虚拟化批处理调度推理优化FMplex推荐理由:做模型服务系统或推理优化的团队,FMplex 的虚拟化思路能直接帮你省显存、降延迟,建议研究其调度和共享机制。原文
00:42OpenRouter@OpenRouterAI精选OpenRouter 指出,在决策点切换模型能有效减少自偏好偏差,即模型倾向于固守自身失败的推理轨迹。该观点引用 Panickssery 等人 2024 年的论文,强调切换模型可打破这种锚定效应,提升决策质量。这对于需要多模型协作或复杂推理的 AI 应用场景具有重要参考价值。AI模型OpenRouter自偏好偏差模型切换推理优化决策点推荐理由:做多模型编排或推理链优化的开发者,这个发现能帮你减少模型自我锚定带来的错误,值得在 pipeline 里试试切换策略。原文
09:43Pandaily@contact@pandaily.com (Pandaily)精选StepFun 最新模型 Step 3.7 Flash 在 Artificial Analysis 基准测试中夺得速度、成本效率和端到端性能三项第一。该模型在 OpenRouter 和 Hugging Face 上获得大量关注,展现出强大的竞争力。这一成绩表明 StepFun 在推理优化和成本控制方面取得了显著突破,为开发者提供了高性价比的 AI 模型选择。AI模型Step 3.7 Flash基准测试推理优化成本效率StepFun推荐理由:做 AI 应用选型或部署推理服务的团队,Step 3.7 Flash 在速度和成本上的优势值得直接对比测试,可能帮你省下不少预算。原文
00:16berryxia@berryxia精选72°小米MiMo模型近期大幅降价,背后是团队对推理系统的彻底重构。他们采用Hybrid Sliding Window Attention架构,将KVCache存储压缩至全注意力的约1/7。团队针对SWA缓存难题重新设计了KVCache管理、层级缓存和prefix-cache tree,并优化了调度策略与Prefill/Decode流水线。在真实生产流量下,有效KVCache容量提升近5倍,缓存命中率稳定在93%-95%。结合MoE配置调优和多模态推理优化,最终实现了长上下文推理成本的降低,支撑了此次降价。AI产品小米MiMo推理优化KVCacheHybrid Sliding Window Attention推荐理由:做模型推理优化的团队值得看看——小米MiMo团队用Hybrid SWA和系统级优化把成本打下来,证明了架构落地比参数更重要,建议点开了解具体实现。原文
AITOP5月29日 08:02Opus 4.8发布:编程助手的“静默时刻”,是解放开发者,还是新门槛?🔥Anthropic 把 AI 编程的“确认键”彻底删掉了!Claude Code 搭载全新 Opus 4.8 模型,长时间任务不跑偏、不废话、不中断,像一个资深工程师一样默默干活,从功能开发到漏洞清扫全包圆,你在旁边喝茶等结果就行。过去 AI 写代码三步一问“这样可以吗”,现在它直接交完整交付物……自主编程的最后一层窗户纸,被捅破了。做自动化开发和代码审查的团队,这个模型建议直接上手,效率差距肉眼可见……
12:00arXiv cs.LG@Zelin Li, Caiwen Ding精选72°研究发现,大语言模型的零阶(ZO)微调本质上是推理密集型负载,而非传统训练。现有实现将ZO算法运行在训练循环中,导致工作负载与运行时的不匹配。研究者通过将ZO微调的重复评分阶段部署在推理运行时(如vLLM)上,在OPT-13B模型上实现了8.13倍加速,且精度几乎无损。该方法在多个模型规模下获得2.34-7.72倍加速,并支持MeZO风格的高秩分解实验。这项工作为将轻量级适配作为推理类负载调度提供了实用路径。论文零阶优化微调推理优化vLLM大语言模型推荐理由:做LLM微调优化的团队终于可以省下GPU时间了——把ZO微调当推理跑,vLLM直接提速8倍,建议做低成本微调的人点开看看实现细节。原文
12:13arXiv: DeepSeek@Xiongwei Zhu, Xiaojian Liao, Tianyang Jiang, Yusen Zhang, Liang Wang, Limin Xiao精选细粒度混合专家(MoE)模型在推理时只激活部分专家,但内存受限场景下只能缓存少量专家,未缓存的专家需从慢速外部存储获取,导致频繁换入换出和I/O开销。ReMoE提出一种路由器微调框架,通过偏向近期选中的专家来产生时间上稳定的路由,从而提升专家复用率,减少存储访问。实验表明,在DeepSeek和Qwen模型上,ReMoE将专家复用率提升26%,同时保持下游任务性能。在vLLM GPU-CPU专家卸载场景下,输出吞吐量提升8.4%;在Jetson Orin NX上使用llama.cpp时,TPOT降低43.6-49.8%,解码速度提升1.77-1.99倍。代码和模型已开源。论文MoE模型推理优化路由器微调专家复用边缘部署推荐理由:ReMoE解决了内存受限设备上MoE模型推理的I/O瓶颈,做边缘部署或大模型推理优化的开发者可以直接试,开源代码让复现门槛很低。原文
20:22阿里云 Alibaba Cloud@alibaba_cloud精选在 2026 年 Qwen 大会上,NVIDIA 高级解决方案架构师 Jian Zhai 在基础模型论坛上深入解析了 Qwen 推理优化技术,展示了通过 NVIDIA 全栈加速实现的突破性性能提升。该演讲聚焦于如何利用 NVIDIA 的软硬件协同优化,显著降低 Qwen 模型的推理延迟并提高吞吐量,为 AI 应用落地提供关键支持。这一合作体现了 AI 原生生态的快速发展,对部署 Qwen 模型的开发者和企业具有重要参考价值。AI模型QwenNVIDIA推理优化全栈加速AI 原生2 个信源在谈推荐理由:NVIDIA 全栈加速让 Qwen 推理性能实现突破,做模型部署和推理优化的工程师可以直接参考其技术方案,值得关注。原文
12:04AI Will@FinanceYF5精选72°最新研究发现,MoE(混合专家)大模型中大量 token 实际上不需要专家处理,导致约一半的专家计算被浪费。论文提出的 ZEDA 方法让模型学会“该省就省”,最高可跳过约 50% 的专家计算,显著提升推理效率。这一发现对降低大模型部署成本、加速推理有重要意义,尤其适合资源受限场景。论文MoE专家计算推理优化ZEDA大模型效率推荐理由:做 MoE 模型推理优化的开发者终于有了新思路——ZEDA 直接砍掉一半专家计算,省成本又提速,值得在自家模型上试试。原文
11:24arXiv cs.LG@Lizhang Chen, Jonathan Li, Chen Liang, Ni Lao, Qiang Liu精选研究者提出了一种无需训练的循环Transformer方法,通过在推理时对冻结的预训练模型进行轻量级循环包装,无需微调或架构改动即可提升性能。该方法将Transformer块视为ODE的欧拉步,通过阻尼子步替代大步更新,避免了简单重复块导致的性能下降。在7个模型家族(包括密集、稀疏MoE和MLA+MoE)上验证有效,如Qwen3-4B-Instruct在MMLU-Pro上提升2.64个百分点,Qwen3-30B-A3B-Instruct在CommonsenseQA上提升1.14个百分点。该方法为利用现有模型提升推理能力提供了低成本方案。论文循环Transformer推理优化无需训练预训练模型ODE视角推荐理由:这项研究让使用冻结模型的团队无需重新训练就能提升推理性能,做模型部署或推理优化的开发者值得关注,可以直接在现有模型上尝试。原文
06:49Clement Delangue@ClementDelangue精选llama.cpp 新增 MTP(Multi-Token Prediction)支持,使本地模型推理速度大幅提升。在 A10G 上测试 Qwen3.6-27B 模型,生成速度从 25 tok/s 提升至 45 tok/s,增幅达 78%。这一优化让本地模型具备了作为日常驱动力的实用性,对本地部署和隐私敏感场景意义重大。开发者可直接在 llama.cpp 中启用 MTP 功能,体验更流畅的本地推理。AI模型llama.cppMTP/多令牌预测本地推理Qwen3.6-27B推理优化推荐理由:本地模型速度翻倍,做本地部署的开发者终于可以告别卡顿,建议直接试试 MTP 支持。原文
11:43arXiv cs.AI@Xinpeng Dong, Min Zhang, Kairong Han, Xu Tan, Fei Wu, Kun Kuang精选多模态大语言模型(MLLMs)在融合视觉与文本信息方面取得显著进展,但现有方法存在两个关键问题:视觉信息被当作普通文本token处理,削弱了其独特贡献;随着生成长度增加,模型对视觉信息的依赖逐渐减弱,导致视觉-语言对齐恶化。为此,研究者提出Vision Inference Former(VIF),一个轻量级架构模块,在推理解码阶段持续注入视觉语义,确保生成内容与视觉语义一致。在14个基准任务上的实验表明,VIF能在不同架构上稳定提升性能,且额外开销极小。代码已开源。论文多模态大模型视觉一致性轻量模块推理优化开源/仓库推荐理由:多模态模型开发者常遇到生成内容偏离图像的问题,VIF用极简模块解决了视觉一致性衰减的痛点,想提升MLLM可靠性的团队可以直接试。原文
11:41arXiv cs.AI@Tej Sanibh Ranade精选72°TRACE 是一种无需训练的推理时幻觉纠正算法,它通过分析大模型内部各层的候选轨迹,动态选择最合适的纠正方式(如标量反转、早期状态恢复或候选空间修正),而不是固定使用单一干预形式。实验覆盖 15 个模型、8 个模型家族和 3 个事实性基准,所有评估指标均有提升,平均 MC1 提高 12.26 点,MC2 提高 8.65 点,最高提升分别达 47.20 和 43.38 点。该方法无需标签、检索、预训练、微调或逐模型校准。论文大模型幻觉纠正推理优化无需训练TRACE推荐理由:TRACE 解决了大模型幻觉纠正中“一刀切”干预的缺陷,做 LLM 推理优化或事实性研究的开发者可以直接在现有模型上试用,无需额外训练成本。原文
10:18arXiv cs.AI@Mengtian Yang, Zhekun Zhang, Mingheng Wu, Jianwen Yan, Hanshi Sun, Li-wen Chang精选72°Charon 是一个用于大规模 LLM 训练和推理性能预测的统一、模块化、细粒度模拟器。它解决了因并行策略、系统优化和硬件配置复杂而难以优化部署的问题。实验表明,Charon 在不同模型和配置下预测误差始终低于 5.35%,在大型 GPU 集群训练场景下误差低于 3.74%。在实际推理部署中,Charon 发现了一种配置,将系统吞吐量提升至超过工程调优的基线,展示了其实际价值。论文LLM训练推理优化性能模拟并行策略Charon推荐理由:做 LLM 部署优化的工程师终于有了一个高精度模拟器来验证“如果…会怎样”的假设,Charon 能帮你快速找到最佳配置,避免盲目调参,建议直接看论文实验部分。原文
11:06arXiv cs.AI@Renning Pang, Tian Lan, Leyuan Liu, Xiaoming Huang, Piao Tong, Xiaosong Zhang精选多轮对话系统在处理长距离依赖时容易丢失关键信息,导致回答不一致。现有方法要么依赖高延迟的外部记忆,要么通过迭代摘要丢失细节。本文提出Self-Recall Thinking (SRT)框架,让模型在推理时自主识别并召回历史有用轮次,生成更一致的回复。SRT包含依赖构建、能力初始化和推理优化三个阶段,通过可验证奖励优化召回和推理。实验表明,SRT在多个数据集上F1提升4.7%,端到端延迟降低14.7%,在推理延迟和准确性间取得更好平衡。论文多轮对话一致性长距离依赖推理优化Self-Recall Thinking推荐理由:做对话系统或客服机器人的团队,SRT解决了长对话中信息稀疏和一致性差的痛点,无需外部模块就能提升效果,值得在长上下文场景中试试。原文
14:13Cohere@cohere精选Cohere 宣布其 W4A8 推理方案已集成到 vLLM 中,通过结合 4 位权重(低内存)和 8 位激活(高计算),在 Hopper 架构上实现了解码和预填充阶段的显著加速。相比 W4A16,TTFT(首 token 生成时间)提升高达 58%,TPOT(每 token 输出时间)提升 45%。这一优化让大模型推理在保持低内存占用的同时大幅提升计算效率,适合生产环境部署。AI模型推理优化vLLMW4A8Cohere模型部署推荐理由:Cohere 的 W4A8 方案解决了大模型推理中内存与速度的权衡问题,做模型部署和推理优化的团队可以直接在 vLLM 中体验,值得关注。原文
13:26arXiv cs.LG@Victor Norgren精选70°传统 Transformer 推理引擎在流式工作负载中,每次查询都需要 O(n) 的预填充成本,随着上下文增长成本急剧上升。本文提出基于状态会话的数据驱动计算模型,通过持久化 KV 缓存增量更新,将预填充移出关键路径,使查询延迟降至 O(|q|),与累积上下文大小无关。Flash Queries 机制利用数据到达间的空闲 GPU 周期预评估注册问题并缓存答案,这在无状态引擎中无法实现。多租户连续批处理调度器支持数十个状态会话在单 GPU 上共存,同时保持完整二次自注意力。在流式市场数据基准测试中,参考实现相比 vLLM、SGLang、TensorRT-LLM、llama.cpp 等传统引擎实现最高 5.9 倍加速,且查询延迟不随上下文增长而增加。论文推理优化流式推理KV缓存状态会话Flash Queries推荐理由:流式推理场景(如实时数据监控、金融交易、对话系统)的开发者终于有了降低延迟的可行方案——把预填充移出关键路径,查询延迟与上下文大小解耦。做高吞吐低延迟推理服务的团队值得关注这个新范式。原文