11:09arXiv cs.AI@Xiaoqiang Wang, Chao Wang, Hadi Nekoei, Christopher Pal, Alexandre Lacoste, Spandana Gella, Bang Liu, Perouz Taslakian精选Mem-π 是一种新型自适应记忆框架,它让大语言模型智能体在需要时动态生成指导,而不是从外部存储中检索静态条目。该框架使用独立的语言或视觉语言模型,基于当前上下文决定是否生成以及生成什么指导,并通过决策-内容解耦的强化学习目标进行训练。在网页导航、终端工具使用和文本交互等基准测试中,Mem-π 相比检索式记忆和之前强化学习优化的基线方法表现更优,在网页导航任务上实现了超过30%的相对提升。论文智能体记忆增强强化学习网页导航工具使用推荐理由:做AI智能体开发的团队终于有了解决记忆错配问题的方案——Mem-π 让智能体学会“按需生成”而非“死板检索”,在复杂任务中效果显著,建议研究记忆增强的开发者点开看看。原文