全部 AI 动态 · AI 热点

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

6月2日

12:05

arXiv cs.LG@Ning Lu, Baijiong Lin, Shengcai Liu, Jiahao Wu, Haoze Lv, Yanbin Wei, Lingting Zhu, Shengju Qian, Xin Wang, Ying-Cong Chen, Qi Wang, Ke Tang

论文提出 PaW 框架，在强化学习训练语言智能体时，利用策略 rollout 中的动作-观测对作为世界模型监督信号，无需额外模拟器或推理计算。通过动作熵筛选数据、噪声容忍损失和自适应损失平衡三个组件，PaW 在多个智能体任务基准上显著优于纯 RL 基线。该方法解决了 RL 缺乏环境反馈监督的问题，让智能体不仅知道“做什么能得高分”，还理解“动作对环境的影响”。实验表明标准 RL rollout 即可提供有效的世界模型训练信号，降低了世界模型的应用门槛。

论文强化学习世界模型语言智能体 PaW 共训练

推荐理由：做语言智能体强化学习的团队，可以用 PaW 在现有 RL 流程中零成本加入世界模型监督，提升智能体对环境的理解能力，值得在项目中尝试。

原文