精选理由
这篇论文戳破了AI智能体“越用越聪明”的幻觉,做智能体开发或长期任务自动化的团队值得看看——你的系统可能只是在记笔记,而不是真在学习。
一篇新论文提出CL-BENCH基准,测试AI智能体是否真正从经验中学习,而非仅依赖记忆。研究发现,简单的全上下文学习优于专门的记忆系统,Claude Sonnet 4.6在纯上下文模式下取得最佳成绩。该基准涵盖编码、数据库、预测等6个领域,要求智能体在连续任务中发现模式。结果表明,当前记忆密集型AI智能体并未比保持完整对话上下文更可靠地学习。这提醒我们,长期运行的AI智能体需要更好的方式来记住有用经验、遗忘过时信息并适应环境变化。
AI 翻译 · 中文
一篇新论文提出CL-BENCH基准,测试AI智能体是否真正从经验中学习,而非仅依赖记忆。研究发现,简单的全上下文学习优于专门的记忆系统,Claude Sonnet 4.6在纯上下文模式下取得最佳成绩。该基准涵盖编码、数据库、预测等6个领域,要求智能体在连续任务中发现模式。结果表明,当前记忆密集型AI智能体并未比保持完整对话上下文更可靠地学习。这提醒我们,长期运行的AI智能体需要更好的方式来记住有用经验、遗忘过时信息并适应环境变化。
This paper proposes a new test to see whether AI agents truly get better as they gain experience and finds they mostly still confuse memory with learning. Shows that simple full-context learning beats the more specialize…