OpenThoughts-Agent-v2发布，基于Qwen-3的7基准平均44.8%

精选理由

斯坦福开源了新agent模型，基于Qwen-3在7个基准上平均44.8%，小模型也能打，值得一试。

AI 摘要

Stanford AI Lab发布OpenThoughts-Agent-v2和OpenThinkerAgent-32B，两者均基于Qwen-3开源数据。在计算控制比较中，该模型在全部训练规模下领先，并在7个agent基准测试上平均得分44.8%。模型在终端使用和编码任务上表现突出，且泛化能力强。

AI 翻译 · 中文

Stanford AI LabMost open agentic datasets target one benchmark. In compute-controlled comparisons, OpenThoughts-Agent-v2 leads at every training set size, and generalizes across seven agentic benchmarks. Check it out! Richard Zhuang @R…

查看原推