Transformers

§ 01综述

Transformers是一种基于自注意力机制的深度学习模型架构，最初由Google在2017年提出用于自然语言处理，如今已成为涵盖多模态、时间序列、计算机视觉等多个领域的核心基础架构。其核心优势在于并行处理序列数据的能力，推动了从大型语言模型到世界模型的技术演进。

Transformers近期进展

推理效率大幅提升: vLLM v0.25.0于2026年7月发布，默认启用Model Runner V2，并新增统一流解析引擎。该版本使得超过450种Transformer架构无需代码移植即可在vLLM中实现原生加速，大幅降低了部署成本。同时，Hugging Face官方确认其Transformers模型可在vLLM中以原生速度推理，显著提升了生产效率。Hugging Face Transformers模型可在vLLM中以原生速度推理 vLLM v0.25.0发布：Model Runner V2默认，新增统一流解析引擎 Transformers v0.25.0: 450+架构无需移植即可在vLLM原生加速

新架构与数据集探索: arXiv上发表的论文提出了Tiramisu架构和Finlam La Liberté数据集，专门用于报纸层级结构理解，展示了Transformer在文档分析领域的拓展。此外，DiffusionBench基准于2026年6月发布，为扩散变换器（Diffusion Transformers）提供了全面评估标准，推动生成模型的可比性研究。论文提出Tiramisu架构和Finlam La Liberté数据集用于报纸层级结构理解 DiffusionBench：扩散变换器全面评估基准

多模态与时间序列应用: NVIDIA发布的Cosmos框架教程介绍了基于Omnimodal Mixture of Transformers构建的Colab世界模型，扩展了Transformers在机器人模拟中的应用。同时，Google Research开源了零样本时间序列模型TimesFM 2.5，实现了对时序数据的直接预测，无需微调。NVIDIA Cosmos教程：Omnimodal MoT构建Colab世界模型 Google Research开源零样本时间序列模型TimesFM 2.5

训练与微调加速: 英伟达开源了一项MoE技术，只需一行import即可将Transformer微调加速3.7倍，显著降低了模型适配成本。此外，arXiv上关于径向抑制加速算法泛化的几何分析，以及RMSNorm Transformers的符号置换坐标传输研究，分别从算法和归一化角度提升了Transformer的训练效率与稳定性。英伟达MoE新开源：一行import，微调加速3.7倍径向抑制加速算法泛化：延迟泛化的几何分析 Signed-Permutation Coordinate Transport for RMSNorm Transformers

当前焦点与观察点

当前Transformer领域的焦点集中在三个方向：一是通过系统级优化（如vLLM）实现大规模模型的高效推理，减少硬件依赖；二是架构创新，包括混合专家模型（MoE）、扩散变换器以及针对特定场景（如报纸布局、时间序列）的专用设计；三是多模态融合，尤其是NVIDIA的世界模型和Google的时序模型，展现了Transformers摆脱纯文本局限的潜力。争议点在于，随着模型规模持续增长，推理成本和能源消耗是否可持续，以及新架构（如状态空间模型）对Transformer主导地位的挑战。整体而言，Transformers仍是最活跃的研究基线，但效率与专用化是未来演进的关键。

§ 02相关报道10 条在档

§ 03邻近话题