AITP
精选全部 AI 动态AI 日报Agent 接入关于更新日志信源提报反馈
登录 / 注册
AITOP
精选
AI 自动挑选的高价值内容
全部模型产品行业论文技巧
标签:LLM 智能体×
5月13日
19:12
arXiv cs.LG@Seokwon Jung, Alexander Rubinstein, Arnas Uselis, Sangdoo Yun, Seong Joon Oh
精选65
MEME 是一个针对 LLM 智能体在多会话环境中记忆能力的新基准,覆盖了多实体和演化两个维度的六项任务,其中三项(级联、缺失、删除)是此前工作未评估的。在 100 个受控场景中测试了六种记忆系统,发现所有系统在默认配置下的依赖推理任务上表现极差(级联任务平均准确率 3%,缺失任务 1%),尽管静态检索性能尚可。提示优化、更深层检索、减少填充噪声以及更强的大模型都无法弥补这一差距。只有基于文件的智能体配合 Claude Opus 4.7 能部分改善,但成本是基准方案的约 70 倍,说明当前依赖推理的解决方案不具备可扩展性。
论文LLM 智能体记忆系统基准测试依赖推理MEME

推荐理由:做 LLM 智能体长期记忆系统的团队会发现,现有方案在依赖推理上几乎失效——MEME 基准暴露了被忽视的盲区,值得点开看看你的系统能否通过级联和缺失任务。