当前AI推理领域正经历从硬件到软件的全栈革新,核心趋势是降低推理成本、提升资源利用效率。近期进展包括:NVIDIA发布Dynamo Snapshot(基于CRIU的快速启动系统),可将AI推理在Kubernetes上的启动时间从分钟级缩短至秒级,优化弹性伸缩与资源复用;英特尔推出数据中心GPU Crescent Island,配备480GB显存,专为大模型推理设计;微软发布Surface RTX Spark Dev Box(100W TDP),支持本地运行1200亿参数模型,推动边缘推理落地;撼与Sparkle展出单槽Arc Pro B70显卡,8卡可组256GB工作站,以及内置千瓦电源的双雷电5扩展坞,强化多卡推理场景。软件层面,Fireworks AI推出Serverless 2.0(无需预留GPU,提供自动伸缩、按需路由等三条路径);有方案提出“按需路由到最便宜模型”策略,成本节省高达87%,凸显推理端降本竞争的白热化。存储侧,SK海力士大连二厂将建200层FG NAND产线,瞄准AI推理的QLC SSD需求;TrendForce数据显示,2026Q1内存营收环比增81%,与推理部署放量相关。
当前焦点集中在:如何通过硬件(多卡、高显存、低功耗)与软件(快速启动、智能路由、无服务器架构)协同实现经济高效的推理服务。未来观察点包括:NVIDIA Nemotron 3 Ultra发布后的生态兼容性,以及Fireworks等新范式能否成为行业标准。