AI模型精选

OpenThoughts-Agent-v2发布,基于Qwen-3的7基准平均44.8%

Most open agentic datasets target one benchmark. In compute-controlled comparisons, OpenThoughts-Age...

精选理由

斯坦福开源了新agent模型,基于Qwen-3在7个基准上平均44.8%,小模型也能打,值得一试。

AI 摘要

Stanford AI Lab发布OpenThoughts-Agent-v2和OpenThinkerAgent-32B,两者均基于Qwen-3开源数据。在计算控制比较中,该模型在全部训练规模下领先,并在7个agent基准测试上平均得分44.8%。模型在终端使用和编码任务上表现突出,且泛化能力强。

AI 翻译 · 中文

Stanford AI Lab发布OpenThoughts-Agent-v2和OpenThinkerAgent-32B,两者均基于Qwen-3开源数据。在计算控制比较中,该模型在全部训练规模下领先,并在7个agent基准测试上平均得分44.8%。模型在终端使用和编码任务上表现突出,且泛化能力强。

Stanford AI LabMost open agentic datasets target one benchmark. In compute-controlled comparisons, OpenThoughts-Agent-v2 leads at every training set size, and generalizes across seven agentic benchmarks. Check it out! Richard Zhuang @R