AI推理(Inference)正从模型能力与效率、绿色计算以及应用场景三个维度加速演进。近期,推理优化与高性能部署成为焦点:DeepLearning.AI与RedHat联合推出vLLM推理优化课程(DeepLearning.AI),旨在通过vLLM框架提升模型推理速度和资源利用率,满足生产环境对低延迟的需求。同时,绿色AI推理受到学术关注,一篇arXiv论文提出通过准确率和延迟感知的用户激励机制来降低推理碳排放(arXiv cs.LG),强调在性能与可持续性之间取得平衡。
模型推理能力的边界被不断拓展:阿里发布Qwen3.7-Max,支持1M上下文,为智能体时代设计(Together AI),显著提升了长序列推理的实用性。OpenAI则推出o3-mini推理模型(OpenAI Blog),主打高效推理能力,进一步降低推理成本。此外,多模态推理的视觉一致性成为热点,VIF轻量模块旨在维持视觉表示一致性(arXiv cs.AI)。
基础设施层面,OpenAI与Cerebras达成合作,新增750MW算力用于推理部署(OpenAI Blog),表明算力军备竞赛仍在继续。当前焦点在于:推理效率与碳减排的权衡、长上下文推理的实用化、以及推理模型在智能体场景中的适配。未来观察点包括:vLLM等框架在行业中的普及度,以及绿色激励机制能否被大规模采用。