EnvFactory：自动合成可执行环境与鲁棒RL，提升工具使用Agent性能

精选理由

做Agentic RL的团队终于有了自动化环境构建方案——EnvFactory只用85个环境就碾压了此前5倍数据量的方法，想省掉手动造环境成本的开发者可以直接用。

AI 摘要

EnvFactory是一个全自动框架，解决了Agentic RL中可扩展执行环境缺失和真实训练数据稀缺两大瓶颈。它从真实资源中自主探索并验证有状态、可执行的工具环境，通过拓扑感知采样和校准精炼合成自然的多轮轨迹，生成带有隐式意图的查询。仅用85个已验证环境（远少于此前工作的5倍以上），EnvFactory就生成了2575条SFT和RL轨迹，并在BFCLv3、MCP-Atlas等基准上提升Qwen3系列模型最高15%。该框架完全自动化环境构建和轨迹合成，为Agentic RL提供了可扩展、可扩展且鲁棒的基础。

AI 翻译 · 中文

arXiv cs.LGEquipping LLMs with tool-use capabilities via Agentic Reinforcement Learning (Agentic RL) is bottlenecked by two challenges: the lack of scalable, robust execution environments and the scarcity of realistic training data…

阅读原文