03:05阿里通义 Qwen@Alibaba_Qwen76°阿里 Qwen 团队联合多家合作伙伴,在 TokenSpeed 推理引擎上对 Qwen3.5 模型进行极致优化,实现了 580 tokens/秒的推理速度,创下智能体工作负载的新纪录。该成果得益于 NVIDIA GPU、FlashAttention-4 优化以及 PyTorch 社区的支持。这一里程碑展示了开源大模型在推理性能上的巨大潜力,尤其适合对延迟敏感的智能体应用场景。PyTorch 官方博客已发布完整技术细节。AI模型Qwen3.5推理优化TokenSpeed开源/仓库智能体推荐理由:580 tps 意味着智能体应用可以几乎实时响应,做 LLM 推理优化或 Agent 开发的团队值得关注这个开源方案,可以直接参考 PyTorch 博客里的实现细节。原文
02:41Aravind Srinivas@AravSrinivas72°Perplexity 开源了其生产环境中使用的 Unigram 分词器,相比 HuggingFace 和 SentencePiece 效率更高。该分词器将 CPU 利用率降低了 5-6 倍,解决了 GPU 上运行的小型重排序器和嵌入器因 CPU 分词延迟而成为瓶颈的问题。项目已在 GitHub 上开源,旨在优化推理管道的端到端延迟。AI产品分词器开源/仓库Perplexity推理优化CPU/GPU推荐理由:Perplexity 把生产级分词器开源了,CPU 利用率降 5-6 倍,做推理优化的团队可以直接拿来用,减少延迟瓶颈。原文
00:16xiaomimimo@xiaomimimo小米宣布MiMo-V2.5系列API永久降价,最高降幅达99%,并统一所有上下文长度的定价。MiMo Token计划升级,同等价格下可用Token数量增加5-8倍,计费规则更简单透明。现有用户的Token计划积分将全部重置。MiMo-V2.5-TTS语音合成API限时免费。这些改进得益于MiMo堆栈的推理优化和服务效率提升。AI产品API降价推理优化MiMo定价调整Token计划推荐理由:API价格直降99%并统一定价,做AI应用开发的团队成本压力骤减,建议立即查看新定价。原文
12:13arXiv: DeepSeek@Xiongwei Zhu, Xiaojian Liao, Tianyang Jiang, Yusen Zhang, Liang Wang, Limin Xiao精选细粒度混合专家(MoE)模型在推理时只激活部分专家,但内存受限场景下只能缓存少量专家,未缓存的专家需从慢速外部存储获取,导致频繁换入换出和I/O开销。ReMoE提出一种路由器微调框架,通过偏向近期选中的专家来产生时间上稳定的路由,从而提升专家复用率,减少存储访问。实验表明,在DeepSeek和Qwen模型上,ReMoE将专家复用率提升26%,同时保持下游任务性能。在vLLM GPU-CPU专家卸载场景下,输出吞吐量提升8.4%;在Jetson Orin NX上使用llama.cpp时,TPOT降低43.6-49.8%,解码速度提升1.77-1.99倍。代码和模型已开源。论文MoE模型推理优化路由器微调专家复用边缘部署推荐理由:ReMoE解决了内存受限设备上MoE模型推理的I/O瓶颈,做边缘部署或大模型推理优化的开发者可以直接试,开源代码让复现门槛很低。原文
11:31Geek@geekbbDeepSeek 在 X 平台发文感谢小米 MiMo,宣布 MiMo-V2.5 系列 API 价格永久降低,最高降幅达 99%,并统一了所有上下文长度的定价。同时,MiMo Token 计划升级,同等价格下可用 token 数量增加 5-8 倍,计费规则更简单透明。现有用户的 Token Plan 积分将全部重置,MiMo-V2.5-TTS 在限定时间内免费。这些改进得益于 MiMo 堆栈的推理优化和服务效率提升,相关技术博客后续发布。AI产品DeepSeek小米 MiMoAPI 降价推理优化语音合成推荐理由:API 价格直降 99% 对开发者是实打实的成本利好,做 AI 应用集成或语音合成的团队可以直接切换,省下预算做更多实验。原文
03:35NVIDIA AI@NVIDIAAINVIDIA AI 官方账号在 X 平台发布 Nemotron Labs 的最新研究成果,聚焦文本扩散模型与弹性推理技术。文本扩散模型是一种新型生成式 AI 方法,能够更高效地处理文本生成任务,而弹性推理则旨在优化推理过程中的计算资源分配,提升模型在复杂任务中的表现。该技术有望降低大模型的部署成本,并提高推理速度,对 AI 研究和应用开发者具有重要参考价值。论文文本扩散弹性推理NVIDIANemotron Labs推理优化2 个信源在谈推荐理由:NVIDIA 在文本生成和推理效率上的新突破,做 NLP 或大模型部署的团队值得关注,能直接启发你优化模型性能。原文
23:22berryxia@berryxia83°CMU和UMD的研究团队发现,Transformer大模型在处理超长任务时注意力机制会因上下文长度二次方爆炸而性能下降。他们提出“sleep-like consolidation”机制,让模型在“睡眠”期间将最近上下文转化为持久fast weights并清空KV cache,从而将短期记忆转为长期记忆。实验表明,增加睡眠深度或时长能显著提升睡眠后的推理能力。该方案完全开源,颠覆了传统靠堆显存扩展上下文的做法。论文Transformer长上下文记忆固化开源/仓库推理优化推荐理由:这个研究用“睡觉”这种生物启发机制解决了长上下文推理的显存和速度瓶颈,做长序列AI应用的开发者可以直接参考开源方案,比堆显存更聪明。原文
05:31marktechpost@Asif Razzaq72°Together AI 开源了 OSCAR,一种面向长上下文 LLM 推理的 INT2 KV 缓存量化方法。与依赖数据无关的 Hadamard 变换不同,OSCAR 通过离线估计注意力感知的协方差结构,为键和值分别推导旋转矩阵。在 Qwen3-4B-Thinking-2507 和 Qwen3-8B 上,OSCAR 以每 KV 元素 2.28 比特的精度,将 BF16 精度差距分别缩小至 3.78 和 1.42 分。该方法可实现约 8 倍的 KV 内存缩减,并在 100K 上下文长度下带来最高 3 倍的解码加速。AI模型量化KV 缓存长上下文Together AI推理优化推荐理由:长上下文 LLM 推理的内存瓶颈终于有了实用解法——OSCAR 在 2-bit 量化下几乎不损失精度,做长文档/多轮对话推理的团队可以直接集成,显著降低硬件成本。原文
20:22阿里云 Alibaba Cloud@alibaba_cloud精选在 2026 年 Qwen 大会上,NVIDIA 高级解决方案架构师 Jian Zhai 在基础模型论坛上深入解析了 Qwen 推理优化技术,展示了通过 NVIDIA 全栈加速实现的突破性性能提升。该演讲聚焦于如何利用 NVIDIA 的软硬件协同优化,显著降低 Qwen 模型的推理延迟并提高吞吐量,为 AI 应用落地提供关键支持。这一合作体现了 AI 原生生态的快速发展,对部署 Qwen 模型的开发者和企业具有重要参考价值。AI模型QwenNVIDIA推理优化全栈加速AI 原生2 个信源在谈推荐理由:NVIDIA 全栈加速让 Qwen 推理性能实现突破,做模型部署和推理优化的工程师可以直接参考其技术方案,值得关注。原文
13:26爱范儿@Selina中国 AI 公司成功将 600 亿参数的大模型部署到手机上,突破了模型体积与移动端算力的瓶颈。这一进展依赖于国产框架、芯片和模型的闭环生态,实现了从方法论到硬件的完全自主。该技术让手机端运行超大模型成为可能,显著提升本地 AI 能力,减少对云端的依赖。关键细节包括模型压缩和推理优化技术,使得在有限内存和功耗下高效运行。这对移动 AI 应用和国产技术生态具有重要意义。AI产品大模型手机部署国产技术模型压缩推理优化推荐理由:手机端跑 600 亿参数模型不再是梦,做移动端 AI 应用或关注国产技术生态的开发者,值得关注这一突破,它可能改变未来手机 AI 的玩法。原文
12:04AI Will@FinanceYF5精选72°最新研究发现,MoE(混合专家)大模型中大量 token 实际上不需要专家处理,导致约一半的专家计算被浪费。论文提出的 ZEDA 方法让模型学会“该省就省”,最高可跳过约 50% 的专家计算,显著提升推理效率。这一发现对降低大模型部署成本、加速推理有重要意义,尤其适合资源受限场景。论文MoE专家计算推理优化ZEDA大模型效率推荐理由:做 MoE 模型推理优化的开发者终于有了新思路——ZEDA 直接砍掉一半专家计算,省成本又提速,值得在自家模型上试试。原文
11:24arXiv cs.LG@Lizhang Chen, Jonathan Li, Chen Liang, Ni Lao, Qiang Liu精选研究者提出了一种无需训练的循环Transformer方法,通过在推理时对冻结的预训练模型进行轻量级循环包装,无需微调或架构改动即可提升性能。该方法将Transformer块视为ODE的欧拉步,通过阻尼子步替代大步更新,避免了简单重复块导致的性能下降。在7个模型家族(包括密集、稀疏MoE和MLA+MoE)上验证有效,如Qwen3-4B-Instruct在MMLU-Pro上提升2.64个百分点,Qwen3-30B-A3B-Instruct在CommonsenseQA上提升1.14个百分点。该方法为利用现有模型提升推理能力提供了低成本方案。论文循环Transformer推理优化无需训练预训练模型ODE视角推荐理由:这项研究让使用冻结模型的团队无需重新训练就能提升推理性能,做模型部署或推理优化的开发者值得关注,可以直接在现有模型上尝试。原文
06:49Clement Delangue@ClementDelangue精选llama.cpp 新增 MTP(Multi-Token Prediction)支持,使本地模型推理速度大幅提升。在 A10G 上测试 Qwen3.6-27B 模型,生成速度从 25 tok/s 提升至 45 tok/s,增幅达 78%。这一优化让本地模型具备了作为日常驱动力的实用性,对本地部署和隐私敏感场景意义重大。开发者可直接在 llama.cpp 中启用 MTP 功能,体验更流畅的本地推理。AI模型llama.cppMTP/多令牌预测本地推理Qwen3.6-27B推理优化推荐理由:本地模型速度翻倍,做本地部署的开发者终于可以告别卡顿,建议直接试试 MTP 支持。原文
01:41AK@_akhaliqMix-Quant 是一种针对智能体大语言模型(LLM)的量化方法,旨在解决预填充阶段(Prefilling)和精确解码(Precise Decoding)的平衡问题。该方法通过量化预填充来加速推理,同时保持解码阶段的精度,特别适用于需要快速响应和准确输出的智能体应用。Mix-Quant 在保持模型性能的同时,显著降低了计算成本和内存占用,为智能体系统的部署提供了更高效的方案。该技术有望推动智能体LLM在实时交互和资源受限场景中的实际应用。AI模型量化智能体推理优化Mix-QuantLLM推荐理由:做智能体LLM部署的团队终于有了兼顾速度和精度的量化方案——Mix-Quant 解决了预填充慢、解码不准的痛点,建议做推理优化的开发者点开看看。原文
11:43arXiv cs.AI@Xinpeng Dong, Min Zhang, Kairong Han, Xu Tan, Fei Wu, Kun Kuang精选多模态大语言模型(MLLMs)在融合视觉与文本信息方面取得显著进展,但现有方法存在两个关键问题:视觉信息被当作普通文本token处理,削弱了其独特贡献;随着生成长度增加,模型对视觉信息的依赖逐渐减弱,导致视觉-语言对齐恶化。为此,研究者提出Vision Inference Former(VIF),一个轻量级架构模块,在推理解码阶段持续注入视觉语义,确保生成内容与视觉语义一致。在14个基准任务上的实验表明,VIF能在不同架构上稳定提升性能,且额外开销极小。代码已开源。论文多模态大模型视觉一致性轻量模块推理优化开源/仓库推荐理由:多模态模型开发者常遇到生成内容偏离图像的问题,VIF用极简模块解决了视觉一致性衰减的痛点,想提升MLLM可靠性的团队可以直接试。原文
11:41arXiv cs.AI@Tej Sanibh Ranade精选72°TRACE 是一种无需训练的推理时幻觉纠正算法,它通过分析大模型内部各层的候选轨迹,动态选择最合适的纠正方式(如标量反转、早期状态恢复或候选空间修正),而不是固定使用单一干预形式。实验覆盖 15 个模型、8 个模型家族和 3 个事实性基准,所有评估指标均有提升,平均 MC1 提高 12.26 点,MC2 提高 8.65 点,最高提升分别达 47.20 和 43.38 点。该方法无需标签、检索、预训练、微调或逐模型校准。论文大模型幻觉纠正推理优化无需训练TRACE推荐理由:TRACE 解决了大模型幻觉纠正中“一刀切”干预的缺陷,做 LLM 推理优化或事实性研究的开发者可以直接在现有模型上试用,无需额外训练成本。原文
10:18arXiv cs.AI@Mengtian Yang, Zhekun Zhang, Mingheng Wu, Jianwen Yan, Hanshi Sun, Li-wen Chang精选72°Charon 是一个用于大规模 LLM 训练和推理性能预测的统一、模块化、细粒度模拟器。它解决了因并行策略、系统优化和硬件配置复杂而难以优化部署的问题。实验表明,Charon 在不同模型和配置下预测误差始终低于 5.35%,在大型 GPU 集群训练场景下误差低于 3.74%。在实际推理部署中,Charon 发现了一种配置,将系统吞吐量提升至超过工程调优的基线,展示了其实际价值。论文LLM训练推理优化性能模拟并行策略Charon推荐理由:做 LLM 部署优化的工程师终于有了一个高精度模拟器来验证“如果…会怎样”的假设,Charon 能帮你快速找到最佳配置,避免盲目调参,建议直接看论文实验部分。原文
11:06arXiv cs.AI@Renning Pang, Tian Lan, Leyuan Liu, Xiaoming Huang, Piao Tong, Xiaosong Zhang精选多轮对话系统在处理长距离依赖时容易丢失关键信息,导致回答不一致。现有方法要么依赖高延迟的外部记忆,要么通过迭代摘要丢失细节。本文提出Self-Recall Thinking (SRT)框架,让模型在推理时自主识别并召回历史有用轮次,生成更一致的回复。SRT包含依赖构建、能力初始化和推理优化三个阶段,通过可验证奖励优化召回和推理。实验表明,SRT在多个数据集上F1提升4.7%,端到端延迟降低14.7%,在推理延迟和准确性间取得更好平衡。论文多轮对话一致性长距离依赖推理优化Self-Recall Thinking推荐理由:做对话系统或客服机器人的团队,SRT解决了长对话中信息稀疏和一致性差的痛点,无需外部模块就能提升效果,值得在长上下文场景中试试。原文
04:54Andrew Ng@AndrewYNgAndrew Ng 推出新课程《Transformers in Practice》,与 AMD 合作,由 Sharon Zhou 主讲。课程提供基于 Transformer 的 LLM 的实用视角,帮助理解其行为、诊断推理缓慢等问题,并做出更明智的部署决策。课程包含交互式可视化,而非纯视频,让学员动手探索概念。学员将掌握 LLM 幻觉原因、注意力机制、推理瓶颈诊断及 GPU 加速技术。AI模型TransformerLLM课程推理优化AMD推荐理由:想真正理解 LLM 内部机制、诊断推理问题的开发者,这门课能帮你从黑盒用户变成懂原理的实践者,建议直接报名。原文
14:13Cohere@cohere精选Cohere 宣布其 W4A8 推理方案已集成到 vLLM 中,通过结合 4 位权重(低内存)和 8 位激活(高计算),在 Hopper 架构上实现了解码和预填充阶段的显著加速。相比 W4A16,TTFT(首 token 生成时间)提升高达 58%,TPOT(每 token 输出时间)提升 45%。这一优化让大模型推理在保持低内存占用的同时大幅提升计算效率,适合生产环境部署。AI模型推理优化vLLMW4A8Cohere模型部署推荐理由:Cohere 的 W4A8 方案解决了大模型推理中内存与速度的权衡问题,做模型部署和推理优化的团队可以直接在 vLLM 中体验,值得关注。原文
13:26arXiv cs.LG@Victor Norgren精选70°传统 Transformer 推理引擎在流式工作负载中,每次查询都需要 O(n) 的预填充成本,随着上下文增长成本急剧上升。本文提出基于状态会话的数据驱动计算模型,通过持久化 KV 缓存增量更新,将预填充移出关键路径,使查询延迟降至 O(|q|),与累积上下文大小无关。Flash Queries 机制利用数据到达间的空闲 GPU 周期预评估注册问题并缓存答案,这在无状态引擎中无法实现。多租户连续批处理调度器支持数十个状态会话在单 GPU 上共存,同时保持完整二次自注意力。在流式市场数据基准测试中,参考实现相比 vLLM、SGLang、TensorRT-LLM、llama.cpp 等传统引擎实现最高 5.9 倍加速,且查询延迟不随上下文增长而增加。论文推理优化流式推理KV缓存状态会话Flash Queries推荐理由:流式推理场景(如实时数据监控、金融交易、对话系统)的开发者终于有了降低延迟的可行方案——把预填充移出关键路径,查询延迟与上下文大小解耦。做高吞吐低延迟推理服务的团队值得关注这个新范式。原文
00:33DeepSeek: GitHub 新仓库(资讯)精选DeepSeek 宣布开源 DeepEP 项目,截至发稿在 GitHub 上获得 9,617 个星标。DeepEP 是一个用于高效专家并行(Expert Parallelism)的通信库,旨在降低 MoE 模型推理中的通信延迟。该项目基于 DeepSeek 内部实践,可帮助开发者优化大规模 MoE 部署。AI产品DeepEPDeepSeek开源推理优化MoE推荐理由:DeepSeek 开源了高效推理库原文
21:35DeepSeek: GitHub 新仓库(资讯)70°DeepSeek 开源了 FlashMLA,一个专为英伟达 Hopper GPU 优化的高效 MLA 解码内核。它针对可变长度序列进行了优化,已在生产中部署。该项目支持 BF16 精度,分页和块大小 64 的块大小,并提供预填充和分页预填充内核。FlashMLA 通过优化内存访问和计算,显著提升了推理性能。开发者可以直接在 GitHub 上获取代码和文档。AI模型DeepSeekFlashMLA开源/仓库推理优化Hopper GPU推荐理由:DeepSeek 开源 FlashMLA 解决了大模型推理中 MLA 解码的性能瓶颈,做推理优化和模型部署的开发者可以直接拿来用,值得一试。原文