Tokens

§ 01综述

Tokens是大型语言模型处理和生成文本的最小语义单元，通常对应子词或字符片段，是衡量模型计算成本和能力的关键指标。近年来，随着模型规模和应用的爆发，tokens的定价、消耗量和优化技术成为行业焦点。

Tokens近期进展

价格竞争加剧：Anthropic 恢复 Fable 5 并推出 Sonnet 5，定价为 $2/百万 tokens，而 Claude Sonnet 5 相较于前代在智能体能力上显著提升，部分性能逼近 Opus 4.8，使得 tokens 的成本效益比成为用户选择模型的核心考量。原文标题: Anthropic 恢复 Fable 5 并推出 Sonnet 5，定价$2/百万 tokens

生成与解码效率突破：DeepSeek DSpark 投机解码原生集成 vLLM，通过推测性生成技术减少实际推理所需的 tokens 数量，从而大幅提升性能。这类技术旨在降低每 token 的计算成本，推动大模型在更多场景落地。原文标题: DeepSeek DSpark 投机解码原生集成 vLLM，性能提升显著

使用量激增：阶跃星辰的 Step 3.7 Flash 模型在 OpenRouter 上月流量达 4.29T tokens，跻身平台前十，反映了 tokens 作为算力消耗度量单位的商业价值日益凸显。原文标题: Step 3.7 Flash 在 OpenRouter 月流量达4.29T tokens，排行前十

上下文窗口扩展：华为开源 openPangu-2.0-Flash 模型支持 512K tokens 上下文，使得单个请求能处理更长的文本，提升了 tokens 的聚合效用，但同时也增加了单次生成成本。原文标题: 华为开源92B参数openPangu-2.0-Flash模型，支持512K上下文

当前焦点与观察点

Tokens 不仅作为计费单位，更成为模型性能与成本博弈的晴雨表。当前焦点集中在三方面：一是 tokens 定价的持续下行与模型能力提升之间的矛盾，如 Sonnet 5 在低价下达到接近顶级模型的表现；二是通过投机解码、架构优化等方式减少 tokens 消耗的工程创新；三是长上下文语境下 tokens 的边际成本与效益评估，例如 512K 级模型的实际应用价值。这些趋势表明，Tokens 正从单纯的计量单位演变为衡量 AI 经济性的核心变量。

§ 02相关报道10 条在档

§ 03邻近话题