精选理由
Qwen做了个新Agent模型Paradigm II,不用额外训练就在终端、编码、搜索和工具调用任务上全涨分,尤其没见过的任务也管用。
Qwen发布Paradigm II,一种基于世界建模的Agent基础模型。它通过单轮环境预测直接测试于多轮工具调用任务,无需Agent强化学习或任务特定调优。在7项基准上均取得提升,域内Terminal-Bench 2.0提升6.3%、SWE-Bench提升3.4%、WideSearch提升12.8%。域外基准Claw-Eval提升11.3%、QwenClawBench提升9.7%、BFCL v4提升9.0%。世界建模将'先预测后行动'内化为可迁移的推理模式。
AI 翻译 · 中文
Qwen发布Paradigm II,一种基于世界建模的Agent基础模型。它通过单轮环境预测直接测试于多轮工具调用任务,无需Agent强化学习或任务特定调优。在7项基准上均取得提升,域内Terminal-Bench 2.0提升6.3%、SWE-Bench提升3.4%、WideSearch提升12.8%。域外基准Claw-Eval提升11.3%、QwenClawBench提升9.7%、BFCL v4提升9.0%。世界建模将'先预测后行动'内化为可迁移的推理模式。
🧠 Paradigm II — Agent Foundation Model: world modeling as agent capability. Single-turn, non-agentic environment prediction → tested directly on multi-turn, tool-calling agent tasks. No agentic RL, no task-specific tuni…