LMSYS 发布 TITO 技术：确保 RL 训练中每个 token 都在策略上

精选理由

做 RL 训练或大模型推理的团队终于有了解决策略偏移的实用方案——TITO 让每个 token 都对齐，计算量还能省 10 倍，搞 Agent 训练的开发者值得点开看看。

AI 摘要

LMSYS 在博客中介绍了 Token-In-Token-Out (TITO) 技术，用于解决强化学习中推理与训练 token 不一致导致的策略偏移问题。TITO 通过确保训练器使用推理引擎产生的精确 token，使每个 token 保持在策略上，从而提升训练效率。该技术将每个任务视为一个样本而非每个回合，在 30-50 回合的轨迹上可节省约 10 倍计算量。Miles 框架通过推理会话服务器、追加式 token 缓冲区、可插拔 TITO tokenizer 和 TokenSeqComparator 等组件实现 TITO。该技术已支持 Qwen3、GLM、Kimi-K2、Nemotron、Minimax 和 DeepSeek 等模型系列。

AI 翻译 · 中文

LMSYS Org (SGLang)📝 New blog: No Token Left Behind: Demystifying Token-In-Token-Out in Miles In agentic RL, a rollout is a chain of model calls, tool outputs & resumed turns. Token-In-Token-Out (TITO) ensures the trainer evaluates the …

查看原推