精选 AI 资讯 · AI 热点

6月29日

13:09

vLLM@vllm_project

精选

vLLM-Omni TTS团队针对Qwen3-TTS、VoxCPM2、Higgs Audio V3、Fish Speech S2 Pro四种TTS模型分别设计了不同的优化策略。对Qwen3-TTS通过解耦连接器分块和批处理Stage-0解码预处理，在H20×2上音频吞吐量提升61.5%，P99延迟减半。VoxCPM2采用whole-forward torch.compile和CFM/LocDiT解码尾部跨请求批处理，音频吞吐量提升172%。Higgs Audio V3将多码本解码状态机迁移到GPU驻留张量，实现2.7倍加速。Fish Speech S2 Pro为纯解码路径设计了模型特定的q_len=1 Triton注意力内核。

AI模型 vLLM Qwen3-TTS VoxCPM2 Higgs Audio V3 Fish Speech S2 Pro 语音合成推理优化

推荐理由：vLLM团队分享了优化四种主流TTS模型服务的具体技巧，包括性能提升数据和实现细节，对部署TTS服务很有参考价值。

原文

00:21

berryxia@berryxia

精选73°

DeepSeek开源了DSpark投机解码框架，用于推理优化。DSpark通过并行backbone加顺序Markov head解决传统投机解码的后缀衰减问题，并引入置信度调度和负载感知调度器。在DeepSeek-V4生产环境中，单用户生成速度比MTP-1基线快60-85%，不同场景吞吐提升1.5x到5x。开源内容包括DeepSeek-V4-Pro-DSpark和DeepSeek-V4-Flash-DSpark模型checkpoint以及MIT协议的DeepSpec训练代码。

AI模型 DeepSeek DSpark DeepSeek-V4 投机解码推理优化

推荐理由：DeepSeek开源了DSpark框架，能让你的V4模型推理提速60%以上，且不影响质量。它解决了投机解码在真实部署中的难题，已经稳定跑在生产环境。

原文

6月25日

05:27

Fireworks AI@FireworksAI_HQ

精选

Fireworks AI 宣布攻克了在前沿模型上使用强化学习时，保持训练和推理数值完全一致（零KLD）的难题。他们将该解决方案作为托管服务提供，首发支持 GLM 5.2 模型。这项服务确保端到端数值对齐，简化了RL训练流程。

AI产品 Fireworks AI GLM 5.2 强化学习推理优化

推荐理由：Fireworks AI 把强化学习里最头疼的数值一致性问题搞定了，还能直接托管GLM 5.2，省去自己搭基础设施的麻烦。

原文

6月20日

03:05

Together AI@togethercompute

精选

MiniMax-M3 模型支持智能体携带长历史（超过百万token）、图像、视频、文档和工具输出进入上下文，显著提升多模态信息处理能力。Together 的推理优化通过改进服务路径上的 token 吞吐量，使这一能力在大规模部署时更实用。相比之前方案，每 GPU 可处理更多 token，从而降低每美元自动化工作成本。

AI模型 MiniMax-M3 Together 智能体多模态推理优化

推荐理由：MiniMax-M3 让智能体一口气带进长历史、图、视频、文档和工具输出，Together 优化后每 GPU token 翻倍，自动任务成本更低。

原文

6月19日

18:37

Together AI@togethercompute

精选

Together AI分享了优化GLM 5.1推理性能的三项关键改进。他们重写了索引器的topk内核。接着融合了索引器内核以减少内存和启动开销。同时消除了限制预填充吞吐量的CPU开销。这些优化显著提升了GLM 5.1在Together AI平台上的运行效率。

AI模型 GLM 5.1 Together AI 推理优化内核重写

推荐理由：想知道Together AI怎么让GLM 5.1跑得更快？他们分享了三个工程优化点，对部署GLM 5.1有直接帮助。

原文

03:08

vLLM@vllm_project

精选72°

Anyscale 与 Google Cloud GKE 合作推出 Ray Serve LLM 新版本，在 vLLM 基础上实现显著性能飞跃。预填密集型负载吞吐量提升 4.4 倍，解码密集型负载提升 24 倍。三个关键优化包括：控制平面端点选择器的直接流式传输、新的 vLLM Ray V2 执行器后端、以及基于 HAProxy 的 C 语言级路由。Ray 的容错、可观察性和跨 K8s/VM 可移植性为复杂推理部署奠定基础。

AI模型 Ray Serve LLM vLLM Anyscale Google Cloud 推理优化

推荐理由：Anyscale 和 Google Cloud 联手让 vLLM 推理快了好几倍，预填负载快 4.4 倍，解码负载快 24 倍，用 Ray V2 执行器就能体验。

原文

6月18日

04:27

LMSYS Org (SGLang)@lmsysorg

精选73°

LMSYS 发表博客详解如何用 SGLang-JAX 在 TPU v7x 上优化 Ling-2.6-1T（1T 参数混合 MoE 模型）。通过 Fused MoE V2 内核将令牌和累加器留在 VMEM 中并双缓冲专家权重，MoE 预填充延迟降低 53%。混合内存池为 10 个全注意力层分配逐令牌 MLA KV，为 70 个 GLA 层分配逐请求循环状态。GLA 线性注意力采用分块并行预填充，单控制器 DP 保持分组 RMS Norm 芯片本地化，无需逐层跨芯片规约。

AI模型 Ling-2.6-1T TPU SGLang-JAX MoE 推理优化

推荐理由：LMSYS 和 InclusionAI 联手，用 SGLang-JAX 让 1T 参数 MoE 在 TPU 上跑得快 53%，技术细节都在博客里。

原文

6月16日

20:16

vLLM@vllm_project

精选

Anyscale团队发布报告，介绍如何用Ray Serve和vLLM实现PD Disaggregation。该技术在AMD MI325X GPU上通过了压力测试，验证了实际性能提升。报告强调正确配置是发挥优势的关键。

技巧 vLLM Ray Serve Anyscale AMD MI325X 推理优化

推荐理由：vLLM推荐了Anyscale的这篇实战文章，讲清楚了PD Disagg在Ray Serve加vLLM上的做法，还在AMD MI325X上测过，值得搞推理部署的人看看。

原文

6月13日

13:28

Together AI@togethercompute

精选

Dan Fu在斯坦福CS336课程中讲解了推理时的KV缓存、prefill/decode分离技术，以及大规模推理的架构。他介绍了Megakernels，通过融合GPU操作实现接近光速的LLM解码。还讨论了Parcae，解释了循环Transformer的扩展问题及其修复方法，并提出了新的缩放定律，暗示现有方法可能未充分利用智能潜力。

论文 KV缓存 Megakernels Parcae 缩放定律推理优化

推荐理由：Dan Fu讲KV缓存和Parcae新缩放定律

原文

6月12日

12:10

vLLM@vllm_project

精选

Inferoa 是一个由 @agenticin 构建的社区智能体框架，基于 vLLM 技术栈。它通过推理经济学来塑造智能体循环，包括前缀缓存管理、上下文优化以及在自托管模型和前沿模型之间的路由。该框架旨在帮助开发者更高效地运行智能体，降低推理成本。vLLM 项目团队对此表示期待，并希望开发者能进一步扩展其功能。

AI产品智能体 vLLM 推理优化社区框架开源/仓库

推荐理由：Inferoa 把推理成本优化直接嵌入智能体循环，做智能体应用或自托管模型的开发者值得关注，能帮你省下不少推理开销。

原文

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

11:30

arXiv cs.AI@Cheng-Yu Yang, Shao-Yuan Lo, Yu-Lun Liu

精选

视觉语言模型（VLM）将图像投影为数百到数千个视觉令牌，导致解码器推理成本高昂。现有方法通常采用“排序并移除”范式，永久丢弃低分令牌。但研究发现，视觉令牌的重要性会随解码器深度变化，早期低分令牌可能在后续层变得重要。为此，研究者提出Reroute，一种无需训练的插件，将移除改为可恢复路由：被延迟的令牌在后续阶段重新进入候选池。该方法在FastV、PDrop等方案上，在LLaVA-1.5和Qwen骨干上，在激进令牌缩减下提升了接地性能，同时保持VQA性能。这表明VLM令牌缩减应视为可恢复路由，而非不可逆修剪。代码已开源。

论文视觉语言模型令牌缩减可恢复路由推理优化开源/仓库

推荐理由：VLM推理成本高是实际部署的痛点，Reroute用零训练代价解决了令牌缩减中信息丢失的问题，做多模态模型优化或部署的团队可以直接集成到现有方案中，值得一试。

原文

6月10日

09:08

arXiv: DeepSeek@Wenxin Wang, Yule Hou, Yu Ji, Peng Qu, Youhui Zhang

精选72°

本地部署大型混合专家模型（MoE）在服务质量上远不及云端环境，即使低并发场景也存在四大差距：依赖降级模型、无法满足长预填充的30秒TTFT、解码吞吐量低于20 tokens/s、混合负载下并发能力差。本文提出CPU-GPU混合系统，通过流式加载预填充（SLP）将预填充吞吐提升至1200 tokens/s，支持32K提示词在30秒内完成；分布式SLP（DSLP）结合SmallEP专家并行，在双RTX 5090上达到1800 tokens/s和45K提示词；以及零拷贝共享权重的节点内预填充-解码分离、AVX-512优化的FP8 GEMV内核等技术。该系统在消费级CPU-GPU平台上实现了旗舰MoE模型的云级服务质量，无需数据中心基础设施即可获得高质量、低成本的本地推理。

论文 MoE模型 CPU-GPU混合推理优化本地部署 SLO

推荐理由：本地跑MoE大模型终于能追上云端的服务质量了——做本地部署的开发者可以直接参考这套CPU-GPU混合方案，不用再忍受降级模型和低吞吐。

原文

6月9日

10:59

arXiv cs.AI@Hetvi Shastri, Pragya Sharma, Walid A. Hanafy, David Irwin, Mani Srivastava, Prashant Shenoy

精选

现有大模型服务系统将每个定制任务部署为独立模型实例，导致骨干模型重复部署、加速器内存浪费，且无法分摊批处理和加载成本。FMplex 提出一种新范式，将大模型骨干视为虚拟化基础，为每个任务提供逻辑上私有的虚拟大模型（vFM），实际共享同一物理骨干。该方案支持任务独立扩展、生命周期和隔离性，并设计了批感知公平队列调度器，实现任务间和任务内的批处理。在 7 个骨干模型（16 个变体）和 92 个下游任务上，FMplex 相比空间分区降低延迟 80%，相比尽力共置降低 33.3%，集群规模下可承载多达 6 倍的任务数。

论文模型服务虚拟化批处理调度推理优化 FMplex

推荐理由：做模型服务系统或推理优化的团队，FMplex 的虚拟化思路能直接帮你省显存、降延迟，建议研究其调度和共享机制。

原文

00:42

OpenRouter@OpenRouterAI

精选

OpenRouter 指出，在决策点切换模型能有效减少自偏好偏差，即模型倾向于固守自身失败的推理轨迹。该观点引用 Panickssery 等人 2024 年的论文，强调切换模型可打破这种锚定效应，提升决策质量。这对于需要多模型协作或复杂推理的 AI 应用场景具有重要参考价值。

AI模型 OpenRouter 自偏好偏差模型切换推理优化决策点

推荐理由：做多模型编排或推理链优化的开发者，这个发现能帮你减少模型自我锚定带来的错误，值得在 pipeline 里试试切换策略。

原文

6月6日

09:43

Pandaily@contact@pandaily.com (Pandaily)

精选

AI模型 Step 3.7 Flash 基准测试推理优化成本效率 StepFun

推荐理由：做 AI 应用选型或部署推理服务的团队，Step 3.7 Flash 在速度和成本上的优势值得直接对比测试，可能帮你省下不少预算。

原文

6月1日

00:09

AITOP6月1日 00:09

OpenAI 发起“Codex for Open Source”：免费赠送 6 个月 Pro 订阅，开源维护者能否迎来 AI 变革？

5月31日

00:16

berryxia@berryxia

精选72°

小米MiMo模型近期大幅降价，背后是团队对推理系统的彻底重构。他们采用Hybrid Sliding Window Attention架构，将KVCache存储压缩至全注意力的约1/7。团队针对SWA缓存难题重新设计了KVCache管理、层级缓存和prefix-cache tree，并优化了调度策略与Prefill/Decode流水线。在真实生产流量下，有效KVCache容量提升近5倍，缓存命中率稳定在93%-95%。结合MoE配置调优和多模态推理优化，最终实现了长上下文推理成本的降低，支撑了此次降价。

AI产品小米 MiMo 推理优化 KVCache Hybrid Sliding Window Attention

推荐理由：做模型推理优化的团队值得看看——小米MiMo团队用Hybrid SWA和系统级优化把成本打下来，证明了架构落地比参数更重要，建议点开了解具体实现。

原文

5月29日

08:02

AITOP5月29日 08:02

Opus 4.8发布：编程助手的“静默时刻”，是解放开发者，还是新门槛？🔥Anthropic 把 AI 编程的“确认键”彻底删掉了！Claude Code 搭载全新 Opus 4.8 模型，长时间任务不跑偏、不废话、不中断，像一个资深工程师一样默默干活，从功能开发到漏洞清扫全包圆，你在旁边喝茶等结果就行。过去 AI 写代码三步一问“这样可以吗”，现在它直接交完整交付物……自主编程的最后一层窗户纸，被捅破了。做自动化开发和代码审查的团队，这个模型建议直接上手，效率差距肉眼可见……

5月28日

12:00

arXiv cs.LG@Zelin Li, Caiwen Ding

精选72°

研究发现，大语言模型的零阶（ZO）微调本质上是推理密集型负载，而非传统训练。现有实现将ZO算法运行在训练循环中，导致工作负载与运行时的不匹配。研究者通过将ZO微调的重复评分阶段部署在推理运行时（如vLLM）上，在OPT-13B模型上实现了8.13倍加速，且精度几乎无损。该方法在多个模型规模下获得2.34-7.72倍加速，并支持MeZO风格的高秩分解实验。这项工作为将轻量级适配作为推理类负载调度提供了实用路径。

论文零阶优化微调推理优化 vLLM 大语言模型

推荐理由：做LLM微调优化的团队终于可以省下GPU时间了——把ZO微调当推理跑，vLLM直接提速8倍，建议做低成本微调的人点开看看实现细节。

原文

5月27日

12:13

arXiv: DeepSeek@Xiongwei Zhu, Xiaojian Liao, Tianyang Jiang, Yusen Zhang, Liang Wang, Limin Xiao

精选

细粒度混合专家（MoE）模型在推理时只激活部分专家，但内存受限场景下只能缓存少量专家，未缓存的专家需从慢速外部存储获取，导致频繁换入换出和I/O开销。ReMoE提出一种路由器微调框架，通过偏向近期选中的专家来产生时间上稳定的路由，从而提升专家复用率，减少存储访问。实验表明，在DeepSeek和Qwen模型上，ReMoE将专家复用率提升26%，同时保持下游任务性能。在vLLM GPU-CPU专家卸载场景下，输出吞吐量提升8.4%；在Jetson Orin NX上使用llama.cpp时，TPOT降低43.6-49.8%，解码速度提升1.77-1.99倍。代码和模型已开源。

论文 MoE模型推理优化路由器微调专家复用边缘部署

推荐理由：ReMoE解决了内存受限设备上MoE模型推理的I/O瓶颈，做边缘部署或大模型推理优化的开发者可以直接试，开源代码让复现门槛很低。

原文

5月25日

20:22

阿里云 Alibaba Cloud@alibaba_cloud

精选

在 2026 年 Qwen 大会上，NVIDIA 高级解决方案架构师 Jian Zhai 在基础模型论坛上深入解析了 Qwen 推理优化技术，展示了通过 NVIDIA 全栈加速实现的突破性性能提升。该演讲聚焦于如何利用 NVIDIA 的软硬件协同优化，显著降低 Qwen 模型的推理延迟并提高吞吐量，为 AI 应用落地提供关键支持。这一合作体现了 AI 原生生态的快速发展，对部署 Qwen 模型的开发者和企业具有重要参考价值。

AI模型 Qwen NVIDIA 推理优化全栈加速 AI 原生

推荐理由：NVIDIA 全栈加速让 Qwen 推理性能实现突破，做模型部署和推理优化的工程师可以直接参考其技术方案，值得关注。

原文

12:04

AI Will@FinanceYF5

精选72°

论文 MoE 专家计算推理优化 ZEDA 大模型效率

推荐理由：做 MoE 模型推理优化的开发者终于有了新思路——ZEDA 直接砍掉一半专家计算，省成本又提速，值得在自家模型上试试。

原文

11:24

arXiv cs.LG@Lizhang Chen, Jonathan Li, Chen Liang, Ni Lao, Qiang Liu

精选

研究者提出了一种无需训练的循环Transformer方法，通过在推理时对冻结的预训练模型进行轻量级循环包装，无需微调或架构改动即可提升性能。该方法将Transformer块视为ODE的欧拉步，通过阻尼子步替代大步更新，避免了简单重复块导致的性能下降。在7个模型家族（包括密集、稀疏MoE和MLA+MoE）上验证有效，如Qwen3-4B-Instruct在MMLU-Pro上提升2.64个百分点，Qwen3-30B-A3B-Instruct在CommonsenseQA上提升1.14个百分点。该方法为利用现有模型提升推理能力提供了低成本方案。

论文循环Transformer 推理优化无需训练预训练模型 ODE视角

推荐理由：这项研究让使用冻结模型的团队无需重新训练就能提升推理性能，做模型部署或推理优化的开发者值得关注，可以直接在现有模型上尝试。

原文

06:49

Clement Delangue@ClementDelangue

精选

llama.cpp 新增 MTP（Multi-Token Prediction）支持，使本地模型推理速度大幅提升。在 A10G 上测试 Qwen3.6-27B 模型，生成速度从 25 tok/s 提升至 45 tok/s，增幅达 78%。这一优化让本地模型具备了作为日常驱动力的实用性，对本地部署和隐私敏感场景意义重大。开发者可直接在 llama.cpp 中启用 MTP 功能，体验更流畅的本地推理。

AI模型 llama.cpp MTP/多令牌预测本地推理 Qwen3.6-27B 推理优化

推荐理由：本地模型速度翻倍，做本地部署的开发者终于可以告别卡顿，建议直接试试 MTP 支持。

原文

5月19日

11:43

arXiv cs.AI@Xinpeng Dong, Min Zhang, Kairong Han, Xu Tan, Fei Wu, Kun Kuang

精选

多模态大语言模型（MLLMs）在融合视觉与文本信息方面取得显著进展，但现有方法存在两个关键问题：视觉信息被当作普通文本token处理，削弱了其独特贡献；随着生成长度增加，模型对视觉信息的依赖逐渐减弱，导致视觉-语言对齐恶化。为此，研究者提出Vision Inference Former（VIF），一个轻量级架构模块，在推理解码阶段持续注入视觉语义，确保生成内容与视觉语义一致。在14个基准任务上的实验表明，VIF能在不同架构上稳定提升性能，且额外开销极小。代码已开源。

论文多模态大模型视觉一致性轻量模块推理优化开源/仓库

推荐理由：多模态模型开发者常遇到生成内容偏离图像的问题，VIF用极简模块解决了视觉一致性衰减的痛点，想提升MLLM可靠性的团队可以直接试。

原文

11:41

arXiv cs.AI@Tej Sanibh Ranade

精选72°

TRACE 是一种无需训练的推理时幻觉纠正算法，它通过分析大模型内部各层的候选轨迹，动态选择最合适的纠正方式（如标量反转、早期状态恢复或候选空间修正），而不是固定使用单一干预形式。实验覆盖 15 个模型、8 个模型家族和 3 个事实性基准，所有评估指标均有提升，平均 MC1 提高 12.26 点，MC2 提高 8.65 点，最高提升分别达 47.20 和 43.38 点。该方法无需标签、检索、预训练、微调或逐模型校准。

论文大模型幻觉纠正推理优化无需训练 TRACE

推荐理由：TRACE 解决了大模型幻觉纠正中“一刀切”干预的缺陷，做 LLM 推理优化或事实性研究的开发者可以直接在现有模型上试用，无需额外训练成本。

原文

10:18

arXiv cs.AI@Mengtian Yang, Zhekun Zhang, Mingheng Wu, Jianwen Yan, Hanshi Sun, Li-wen Chang

精选72°

Charon 是一个用于大规模 LLM 训练和推理性能预测的统一、模块化、细粒度模拟器。它解决了因并行策略、系统优化和硬件配置复杂而难以优化部署的问题。实验表明，Charon 在不同模型和配置下预测误差始终低于 5.35%，在大型 GPU 集群训练场景下误差低于 3.74%。在实际推理部署中，Charon 发现了一种配置，将系统吞吐量提升至超过工程调优的基线，展示了其实际价值。

论文 LLM训练推理优化性能模拟并行策略 Charon

推荐理由：做 LLM 部署优化的工程师终于有了一个高精度模拟器来验证“如果…会怎样”的假设，Charon 能帮你快速找到最佳配置，避免盲目调参，建议直接看论文实验部分。

原文

5月15日

11:06

arXiv cs.AI@Renning Pang, Tian Lan, Leyuan Liu, Xiaoming Huang, Piao Tong, Xiaosong Zhang

精选

多轮对话系统在处理长距离依赖时容易丢失关键信息，导致回答不一致。现有方法要么依赖高延迟的外部记忆，要么通过迭代摘要丢失细节。本文提出Self-Recall Thinking (SRT)框架，让模型在推理时自主识别并召回历史有用轮次，生成更一致的回复。SRT包含依赖构建、能力初始化和推理优化三个阶段，通过可验证奖励优化召回和推理。实验表明，SRT在多个数据集上F1提升4.7%，端到端延迟降低14.7%，在推理延迟和准确性间取得更好平衡。

论文多轮对话一致性长距离依赖推理优化 Self-Recall Thinking

推荐理由：做对话系统或客服机器人的团队，SRT解决了长对话中信息稀疏和一致性差的痛点，无需外部模块就能提升效果，值得在长上下文场景中试试。

原文

5月14日

14:13

Cohere@cohere

精选

Cohere 宣布其 W4A8 推理方案已集成到 vLLM 中，通过结合 4 位权重（低内存）和 8 位激活（高计算），在 Hopper 架构上实现了解码和预填充阶段的显著加速。相比 W4A16，TTFT（首 token 生成时间）提升高达 58%，TPOT（每 token 输出时间）提升 45%。这一优化让大模型推理在保持低内存占用的同时大幅提升计算效率，适合生产环境部署。

AI模型推理优化 vLLM W4A8 Cohere 模型部署

推荐理由：Cohere 的 W4A8 方案解决了大模型推理中内存与速度的权衡问题，做模型部署和推理优化的团队可以直接在 vLLM 中体验，值得关注。

原文

13:26

arXiv cs.LG@Victor Norgren

精选70°

传统 Transformer 推理引擎在流式工作负载中，每次查询都需要 O(n) 的预填充成本，随着上下文增长成本急剧上升。本文提出基于状态会话的数据驱动计算模型，通过持久化 KV 缓存增量更新，将预填充移出关键路径，使查询延迟降至 O(|q|)，与累积上下文大小无关。Flash Queries 机制利用数据到达间的空闲 GPU 周期预评估注册问题并缓存答案，这在无状态引擎中无法实现。多租户连续批处理调度器支持数十个状态会话在单 GPU 上共存，同时保持完整二次自注意力。在流式市场数据基准测试中，参考实现相比 vLLM、SGLang、TensorRT-LLM、llama.cpp 等传统引擎实现最高 5.9 倍加速，且查询延迟不随上下文增长而增加。

论文推理优化流式推理 KV缓存状态会话 Flash Queries

推荐理由：流式推理场景（如实时数据监控、金融交易、对话系统）的开发者终于有了降低延迟的可行方案——把预填充移出关键路径，查询延迟与上下文大小解耦。做高吞吐低延迟推理服务的团队值得关注这个新范式。

原文