10:40arXiv cs.LG@Yupu Hao, Zhuoran Jin, Huanxuan Liao, Kang Liu, Jun Zhao该论文通过实验发现,多步工具使用强化学习(RL)训练中,模型可出现灾难性崩溃,性能骤降且工具调用结构失效。根本原因是特定控制token概率突增,但基础工具使用能力并未丢失。研究者系统探索了离策略监督、提示引导、错误示例等多种监督信号,并比较了同步与交错训练方案。结果表明,将监督微调(SFT)与RL交错进行可显著提升稳定性,但在格式和内容分布外(OOD)评估中性能下降。该工作揭示了RL失败机理,并展示了多样化监督信号对鲁棒训练的价值。论文LLM强化学习工具使用SFT监督信号推荐理由:这篇论文分析了多步工具RL训练容易崩溃的原因,并实验证明交错SFT与RL能有效提升稳定性,对做智能体RL的人很有参考价值。原文
09:20arXiv: OpenAI@Costas Mylonas, Magda Foti, Andrea Pomarico, Matheus Duarte, Qian Zhang, Emmanouel Varvarigos精选PowerAgentBench-SS是一个针对电力系统稳态研究中工具使用智能体的基准框架。它使用IEEE 39节点系统进行直流热N-2预想事故搜索测试,评估智能体在工具调用、约束满足和验证方面的能力。实验对比了三个本地Ollama模型和一个OpenAI API代理,发现纯求解器评估不足以区分智能体性能,验证预算使用、类型强制转换、证据报告等行为是关键差异。该基准包含召回率、假安全惩罚、严重性遗憾、行动成本等风险敏感指标。论文PowerAgentBench-SS智能体电力系统基准工具使用10 个信源在谈推荐理由:搞电力系统智能体评估的可以看看这个,用IEEE 39节点系统测试大模型能不能真干活,不只看结果还看过程,挺实在的。原文
11:09arXiv cs.AI@Xiaoqiang Wang, Chao Wang, Hadi Nekoei, Christopher Pal, Alexandre Lacoste, Spandana Gella, Bang Liu, Perouz Taslakian精选Mem-π 是一种新型自适应记忆框架,它让大语言模型智能体在需要时动态生成指导,而不是从外部存储中检索静态条目。该框架使用独立的语言或视觉语言模型,基于当前上下文决定是否生成以及生成什么指导,并通过决策-内容解耦的强化学习目标进行训练。在网页导航、终端工具使用和文本交互等基准测试中,Mem-π 相比检索式记忆和之前强化学习优化的基线方法表现更优,在网页导航任务上实现了超过30%的相对提升。论文智能体记忆增强强化学习网页导航工具使用推荐理由:做AI智能体开发的团队终于有了解决记忆错配问题的方案——Mem-π 让智能体学会“按需生成”而非“死板检索”,在复杂任务中效果显著,建议研究记忆增强的开发者点开看看。原文
11:07arXiv cs.AI@Caleb Winston, Ron Yifeng Wang, Azalia Mirhoseini, Christos Kozyrakis76°现有网页操作智能体(如 Browser-Use、OpenAI CUA)采用顺序的“抓取-截图-执行”循环,每次迭代都需要调用 LLM,导致高延迟和频繁错误。研究者提出 Agent JIT 编译方法,将任务描述直接编译为可执行代码,包含 LLM 调用、工具调用和并行化。该方法包含三个组件:JIT-Planner 生成多个代码计划并选择最低成本方案;JIT-Scheduler 通过蒙特卡洛成本估计探索并行策略;不变式工具协议减少错误工具使用。在 5 个网页应用上,JIT-Planner 相比 Browser-Use 实现 10.4 倍加速和 28% 准确率提升,JIT-Scheduler 相比 OpenAI CUA 实现 2.4 倍加速和 9% 准确率提升。论文智能体网页自动化JIT编译延迟优化工具使用10 个信源在谈推荐理由:网页自动化开发者终于有了降低延迟的实用方案——Agent JIT 编译直接解决了顺序执行的高延迟痛点,做 RPA 或浏览器智能体的团队值得一试。原文
14:46arXiv cs.LG@Minrui Xu, Zilin Wang, Mengyi DENG, Zhiwei Li, Zhicheng Yang, Xiao Zhu, Yinhong Liu, Boyu Zhu, Baiyu Huang, Chao Chen, Heyuan Deng, Fei Mi, Lifeng Shang, Xingshan Zeng, Zhijiang Guo精选72°EnvFactory是一个全自动框架,解决了Agentic RL中可扩展执行环境缺失和真实训练数据稀缺两大瓶颈。它从真实资源中自主探索并验证有状态、可执行的工具环境,通过拓扑感知采样和校准精炼合成自然的多轮轨迹,生成带有隐式意图的查询。仅用85个已验证环境(远少于此前工作的5倍以上),EnvFactory就生成了2575条SFT和RL轨迹,并在BFCLv3、MCP-Atlas等基准上提升Qwen3系列模型最高15%。该框架完全自动化环境构建和轨迹合成,为Agentic RL提供了可扩展、可扩展且鲁棒的基础。论文Agentic RL工具使用环境合成Qwen3自动化框架推荐理由:做Agentic RL的团队终于有了自动化环境构建方案——EnvFactory只用85个环境就碾压了此前5倍数据量的方法,想省掉手动造环境成本的开发者可以直接用。原文