14:46
arXiv cs.LG@Minrui Xu, Zilin Wang, Mengyi DENG, Zhiwei Li, Zhicheng Yang, Xiao Zhu, Yinhong Liu, Boyu Zhu, Baiyu Huang, Chao Chen, Heyuan Deng, Fei Mi, Lifeng Shang, Xingshan Zeng, Zhijiang Guo EnvFactory是一个全自动框架,解决了Agentic RL中可扩展执行环境缺失和真实训练数据稀缺两大瓶颈。它从真实资源中自主探索并验证有状态、可执行的工具环境,通过拓扑感知采样和校准精炼合成自然的多轮轨迹,生成带有隐式意图的查询。仅用85个已验证环境(远少于此前工作的5倍以上),EnvFactory就生成了2575条SFT和RL轨迹,并在BFCLv3、MCP-Atlas等基准上提升Qwen3系列模型最高15%。该框架完全自动化环境构建和轨迹合成,为Agentic RL提供了可扩展、可扩展且鲁棒的基础。
推荐理由:做Agentic RL的团队终于有了自动化环境构建方案——EnvFactory只用85个环境就碾压了此前5倍数据量的方法,想省掉手动造环境成本的开发者可以直接用。