Qwen发布Agent环境模拟器Qwen-AgentWorld，可模拟7种环境

精选理由

通义千问出了个新模型，不是教Agent怎么动，而是先让模型懂环境变化。用模拟环境练出的Agent反而比真实环境练的还强，还开源了35B版，值得看看。

AI 摘要

Qwen团队直接训练了一个语言世界模型Qwen-AgentWorld，核心目标是从头建模环境而非仅训练Agent行为。模型需预测终端输出、网页变化及代码执行后状态，而非单纯学习操作。利用该模型作为模拟器进行可控Sim RL，在某些任务上模拟训练的Agent性能甚至超过真实环境训练的Agent。此外，仅做环境预测的预训练能力可直接迁移到多轮Agent任务，在多个benchmark上取得显著提升，包括未见领域。Qwen开源了35B MoE版本及对应基准。

AI 翻译 · 中文

berryxiaQwen直接训了一个能模拟7种Agent环境的语言世界模型，叫Qwen-AgentWorld。它不是先训Agent再加环境，而是从头就把“环境建模”当成核心训练目标。模型要学会预测终端会输出什么、网页会怎么变、代码执行后状态如何变化，而不是只学会怎么去操作。他们做了两个方向的探索：一个是把世界模型做成高质量的环境模拟器，用来跑可控的Sim RL，结果发现用模拟环境训练的Agent，在某些任务上甚至能超过真实环境训练的Agent。…

查看原推