AI 推理

§ 01综述

当前AI推理领域正经历从硬件到软件的全栈革新，核心趋势是降低推理成本、提升资源利用效率。近期进展包括：NVIDIA发布Dynamo Snapshot（基于CRIU的快速启动系统），可将AI推理在Kubernetes上的启动时间从分钟级缩短至秒级，优化弹性伸缩与资源复用；英特尔推出数据中心GPU Crescent Island，配备480GB显存，专为大模型推理设计；微软发布Surface RTX Spark Dev Box（100W TDP），支持本地运行1200亿参数模型，推动边缘推理落地；撼与Sparkle展出单槽Arc Pro B70显卡，8卡可组256GB工作站，以及内置千瓦电源的双雷电5扩展坞，强化多卡推理场景。软件层面，Fireworks AI推出Serverless 2.0（无需预留GPU，提供自动伸缩、按需路由等三条路径）；有方案提出“按需路由到最便宜模型”策略，成本节省高达87%，凸显推理端降本竞争的白热化。存储侧，SK海力士大连二厂将建200层FG NAND产线，瞄准AI推理的QLC SSD需求；TrendForce数据显示，2026Q1内存营收环比增81%，与推理部署放量相关。

当前焦点集中在：如何通过硬件（多卡、高显存、低功耗）与软件（快速启动、智能路由、无服务器架构）协同实现经济高效的推理服务。未来观察点包括：NVIDIA Nemotron 3 Ultra发布后的生态兼容性，以及Fireworks等新范式能否成为行业标准。

§ 02相关报道10 条在档

§ 03邻近话题