tokens·general

Tokens

别名
首次出现
2026-05-22
最近出现
2026-06-11
累计提及
114
§ 01综述

Token 作为大语言模型的基本计费和处理单元,正从单纯的'字数'概念演变为衡量模型效率、成本和能力的关键指标。近期动态主要围绕推理速度提升、上下文窗口压力缓解以及性价比竞争展开。

  • 推理速度竞赛白热化:Kog AI 在 8×AMD MI300X 上实现 2B 模型 3000 tokens/s 的推理速度,较此前方案提升 10-30 倍(Kog AI 实现 3000 tokens/s 推理速度,10-30 倍提升)。同时,Stepfun 开源 Step 3.7 Flash 模型,在 196B 参数 MoE 架构下达到最高 400 Tokens/s(阶跃星辰开源 Step 3.7 Flash 模型,最高 400 Tokens/s),且已集成到 mlx-vlm 支持本地运行(Step 3.7 Flash 模型加入 mlx-vlm)。Liquid AI 的 LFM2.5-8B-A1B 则用 1.5B 活跃参数实现接近 4 倍参数模型的性能,适合本地智能体(Liquid AI LFM2.5-8B-A1B:1.5B活跃参数跑本地Agent)。
  • 上下文窗口压力缓解:Token 数量对上下文窗口的挤占成为代理应用瓶颈。Hermes Agent 通过加入工具搜索功能,试图解决 MCP 工具占满上下文的问题(Hermes Agent 加入工具搜索),这实质是在有限 token 预算下优化工具使用效率。
  • 成本与定价革命:小米 MiMo-V2.5 系列 API 宣布永久降价,最高降幅 99%(小米 MiMo-V2.5 系列 API 永久降价),直接拉低 token 使用成本。Anthropic 发布 Claude Opus 4.8 并推出快速模式(Anthropic 发布 Claude Opus 4.8, llm-anthropic 0.25.1 发布),也暗示高端模型开始在响应速度与 token 利用率之间寻求平衡。
  • 当前焦点在于如何在有限的 token 预算内(上下文窗口限制)实现更高效的工具调用、推理和成本控制。未来观察点包括:超低延迟 token 生成是否会导致应用层重新设计(如更密集的链式调用)、高性价比 API 降价是否会倒逼开源社区进一步优化 token 利用率,以及 agent 场景下 token 管理策略的重要性是否超过模型原始能力。

    § 02相关报道10 条在档
    1. 01
      Google 开源 DiffusionGemma:扩散架构模型,1000+ tokens/s
      小互
    2. 02
      Google 开源 DiffusionGemma 26B 模型,NVIDIA 免费托管
      Simon Willison’s Weblog
    3. 03
      Google DeepMind 发布 DiffusionGemma,并行生成 256 tokens,速度提升 4 倍
      NVIDIA AI
    4. 04
      Google 发布 DiffusionGemma:26B MoE 开源模型,激活仅 3.8B,推理速度超快
      rohanpaul_ai
    5. 05
      DiffusionGemma:基于Gemma 4的扩散模型,每秒1000+ tokens
      Philipp Schmid
    6. 06
      Claude Design 省 tokens 但速度不如本地快
      宝玉
    7. 07
      ReasonAlloc:推理模型解码时KV缓存分层预算分配
      arXiv: DeepSeek
    8. 08
      CPU-GPU混合设计实现本地MoE推理云级SLO
      arXiv: DeepSeek
    9. 09
      小米 MiMo V2.5-Pro-UltraSpeed 突破万亿参数模型千 tokens/s 输出
      IT之家
    10. 10
      小米MiMo-V2.5-Pro-UltraSpeed:单节点8卡实现1T模型1000+ tokens/s
      xiaomimimo
    § 03邻近话题

    本页综述由 AITOP 基于公开报道整理。原报道版权归各自来源所有。

    /topic/Tokens