精选理由
斯坦福开源了新agent模型,基于Qwen-3在7个基准上平均44.8%,小模型也能打,值得一试。
Stanford AI Lab发布OpenThoughts-Agent-v2和OpenThinkerAgent-32B,两者均基于Qwen-3开源数据。在计算控制比较中,该模型在全部训练规模下领先,并在7个agent基准测试上平均得分44.8%。模型在终端使用和编码任务上表现突出,且泛化能力强。
AI 翻译 · 中文
Stanford AI Lab发布OpenThoughts-Agent-v2和OpenThinkerAgent-32B,两者均基于Qwen-3开源数据。在计算控制比较中,该模型在全部训练规模下领先,并在7个agent基准测试上平均得分44.8%。模型在终端使用和编码任务上表现突出,且泛化能力强。
Most open agentic datasets target one benchmark. In compute-controlled comparisons, OpenThoughts-Agent-v2 leads at every training set size, and generalizes across seven agentic benchmarks. Check it out! Richard Zhuang @R…