AITP
精选全部 AI 动态AI 日报Agent 接入关于更新日志信源提报反馈
登录 / 注册
AITOP
精选
过去 24 小时,从 900 条中筛出 50 条
全部模型产品行业论文技巧
标签:环境合成×
6月11日
15:28
AITOP6月11日 15:28
1107 vs 303:谷歌悄悄开源了一个“拆打字机”的模型,把大模型速度翻了4倍
15:23
AITOP6月11日 15:23
DiffusionGemma颠覆文本生成?自回归模型的“统治”要结束了
15:07
AITOP6月11日 15:07
每秒1107个token,Google开源的扩散模型为什么能改变本地推理格局?
6月1日
00:09
AITOP6月1日 00:09
OpenAI 发起“Codex for Open Source”:免费赠送 6 个月 Pro 订阅,开源维护者能否迎来 AI 变革?
5月29日
08:02
AITOP5月29日 08:02
Opus 4.8发布:编程助手的“静默时刻”,是解放开发者,还是新门槛?🔥Anthropic 把 AI 编程的“确认键”彻底删掉了!Claude Code 搭载全新 Opus 4.8 模型,长时间任务不跑偏、不废话、不中断,像一个资深工程师一样默默干活,从功能开发到漏洞清扫全包圆,你在旁边喝茶等结果就行。过去 AI 写代码三步一问“这样可以吗”,现在它直接交完整交付物……自主编程的最后一层窗户纸,被捅破了。做自动化开发和代码审查的团队,这个模型建议直接上手,效率差距肉眼可见……Opus 4.8发布:编程助手的“静默时刻”,是解放开发者,还是新门槛?
5月19日
14:46
14:46arXiv cs.LG@Minrui Xu, Zilin Wang, Mengyi DENG, Zhiwei Li, Zhicheng Yang, Xiao Zhu, Yinhong Liu, Boyu Zhu, Baiyu Huang, Chao Chen, Heyuan Deng, Fei Mi, Lifeng Shang, Xingshan Zeng, Zhijiang Guo
精选72°
EnvFactory是一个全自动框架,解决了Agentic RL中可扩展执行环境缺失和真实训练数据稀缺两大瓶颈。它从真实资源中自主探索并验证有状态、可执行的工具环境,通过拓扑感知采样和校准精炼合成自然的多轮轨迹,生成带有隐式意图的查询。仅用85个已验证环境(远少于此前工作的5倍以上),EnvFactory就生成了2575条SFT和RL轨迹,并在BFCLv3、MCP-Atlas等基准上提升Qwen3系列模型最高15%。该框架完全自动化环境构建和轨迹合成,为Agentic RL提供了可扩展、可扩展且鲁棒的基础。
论文Agentic RL工具使用环境合成Qwen3自动化框架

推荐理由:做Agentic RL的团队终于有了自动化环境构建方案——EnvFactory只用85个环境就碾压了此前5倍数据量的方法,想省掉手动造环境成本的开发者可以直接用。
原文
精选全部日报登录