lmsys·general

lmsys

别名
首次出现
2026-06-04
最近出现
2026-06-12
累计提及
3
§ 01综述

LMSYS 继续在大型语言模型评测与训练技术领域扮演关键角色。近期,其核心平台 LMSYS Chatbot Arena 保持高活跃度,不断引入新模型与测评维度。

首先,LMSYS 团队提出了 TITO 技术,旨在解决强化学习训练中因 token 采样导致的策略不一致问题,通过确保每个 token 均在当前策略内采样,提升了 RL 训练的稳定性和效果(LMSYS 发布 TITO 技术:确保 RL 训练中每个 token 都在策略上)。其次,Claude Fable 5 模型正式登陆 LMSYS Arena,支持文本、视觉、文档和代码评测,进一步丰富了竞技场的多模态评测能力(Claude Fable 5 登陆 LMSYS 竞技场,支持文本/视觉/文档/代码评测)。此外,LMSYS 推出 Agent Arena,聚焦 AI 智能体在复杂任务中的表现,提供可量化的排名机制,扩展了评测范围(Agent Arena 上线:AI 智能体能力可量化排名)。同期,MiniMax M3 模型加入 Arena 排行榜,推动了评测标准的帕累托前沿(MiniMax M3 登陆 Arena,推动帕累托前沿)。

当前焦点在于 Arena 平台如何有效覆盖从基础模型到智能体能力的全面评估,以及 TITO 这类训练优化技术能否被社区广泛采纳。未来需关注 Agent Arena 的实际评测效果,以及 LMSYS 是否将整合更多多模态与工具使用场景的评测标准。

§ 02相关报道04 条在档
  1. 01
    LMSYS 发布 TITO 技术:确保 RL 训练中每个 token 都在策略上
    LMSYS Org (SGLang)
  2. 02
    Claude Fable 5 登陆 LMSYS 竞技场,支持文本/视觉/文档/代码评测
    lmarena.ai
  3. 03
    Agent Arena 上线:AI 智能体能力可量化排名
    lmarena.ai
  4. 04
    MiniMax M3 登陆 Arena,推动帕累托前沿
    lmarena.ai
§ 03邻近话题

本页综述由 AITOP 基于公开报道整理。原报道版权归各自来源所有。

/topic/lmsys