精选理由
通义千问出了个新模型,不是教Agent怎么动,而是先让模型懂环境变化。用模拟环境练出的Agent反而比真实环境练的还强,还开源了35B版,值得看看。
Qwen团队直接训练了一个语言世界模型Qwen-AgentWorld,核心目标是从头建模环境而非仅训练Agent行为。模型需预测终端输出、网页变化及代码执行后状态,而非单纯学习操作。利用该模型作为模拟器进行可控Sim RL,在某些任务上模拟训练的Agent性能甚至超过真实环境训练的Agent。此外,仅做环境预测的预训练能力可直接迁移到多轮Agent任务,在多个benchmark上取得显著提升,包括未见领域。Qwen开源了35B MoE版本及对应基准。
AI 翻译 · 中文
Qwen团队直接训练了一个语言世界模型Qwen-AgentWorld,核心目标是从头建模环境而非仅训练Agent行为。模型需预测终端输出、网页变化及代码执行后状态,而非单纯学习操作。利用该模型作为模拟器进行可控Sim RL,在某些任务上模拟训练的Agent性能甚至超过真实环境训练的Agent。此外,仅做环境预测的预训练能力可直接迁移到多轮Agent任务,在多个benchmark上取得显著提升,包括未见领域。Qwen开源了35B MoE版本及对应基准。
Qwen直接训了一个能模拟7种Agent环境的语言世界模型,叫Qwen-AgentWorld。 它不是先训Agent再加环境,而是从头就把“环境建模”当成核心训练目标。 模型要学会预测终端会输出什么、网页会怎么变、代码执行后状态如何变化,而不是只学会怎么去操作。 他们做了两个方向的探索: 一个是把世界模型做成高质量的环境模拟器,用来跑可控的Sim RL,结果发现用模拟环境训练的Agent,在某些任务上甚至能超过真实环境训练的Agent。…