Token

§ 01综述

在人工智能领域，Token 是模型处理文本的基本单位，通常代表一个词或子词，其消耗量直接影响计算成本和输出质量。随着模型规模扩大和推理优化技术发展，Token 已成为衡量模型效率、定价策略和用户体验的核心指标。

Token 优化与成本控制近期进展

SGLang 联手 NVIDIA 优化 DeepSeek V4 在 Blackwell 上实现 5 倍性能提升：通过 SGLang 运行时和英伟达 Blackwell 硬件的协同优化，DeepSeek V4 的 Token 推理效率得到大幅提升，单 Token 成本降至1/5，吞吐量提升20倍。

Claude Sonnet 5 被指通过增加 Token 消耗隐藏涨价：Anthropic 发布 Claude Sonnet 5 时保持每百万 Token 价格不变，但实际输出中 Token 消耗更多，变相提高了用户的使用成本，引发对定价透明度的质疑。

NVIDIA 发布 Nemotron-Labs-TwoTower 开放权重扩散语言模型：该模型在扩散生成框架中采用独特 Token 表示方法，为提升生成质量与灵活性提供了新思路。

当前焦点与观察点

Token 的经济性与效率成为行业争夺焦点。一方面，硬件-软件协同优化（如 SGLang + Blackwell）显著降低单个 Token 的推理成本，推动大模型在更多场景落地；另一方面，模型厂商在 Token 定价上出现“隐性涨价”现象，用户需关注实际 Token 消耗模式而非仅看单价。此外，Token 定义也在扩展——从文本到机器人技能表示（如 ASPIRE 项目中的 Token 化迁移），表明 Token 概念正超越语言模型，成为通用 AI 系统的关键抽象。未来，如何平衡 Token 的精细度、成本与效用，将是长期议题。

§ 02相关报道10 条在档

§ 03邻近话题