12:05
arXiv cs.LG@Ning Lu, Baijiong Lin, Shengcai Liu, Jiahao Wu, Haoze Lv, Yanbin Wei, Lingting Zhu, Shengju Qian, Xin Wang, Ying-Cong Chen, Qi Wang, Ke Tang 论文提出 PaW 框架,在强化学习训练语言智能体时,利用策略 rollout 中的动作-观测对作为世界模型监督信号,无需额外模拟器或推理计算。通过动作熵筛选数据、噪声容忍损失和自适应损失平衡三个组件,PaW 在多个智能体任务基准上显著优于纯 RL 基线。该方法解决了 RL 缺乏环境反馈监督的问题,让智能体不仅知道“做什么能得高分”,还理解“动作对环境的影响”。实验表明标准 RL rollout 即可提供有效的世界模型训练信号,降低了世界模型的应用门槛。
推荐理由:做语言智能体强化学习的团队,可以用 PaW 在现有 RL 流程中零成本加入世界模型监督,提升智能体对环境的理解能力,值得在项目中尝试。