10:41AI Will@FinanceYF5精选《Memory》方法让模型在多个 session 间积累知识,路径分为失败、调查、验证、提炼规则、查用规则五步。Sonnet 4.6 仅完成第1步(记录失败但不查询);Opus 4.7 可到第3步,但校验覆盖率仅7–33%;Fable 5 能走完全程,验证覆盖率最高达73%。该方法旨在提升模型跨会话知识复用能力。论文Sonnet 4.6Opus 4.7Fable 5记忆机制推理模型10 个信源在谈推荐理由:Fable 5 跨 session 记忆覆盖率73%原文
19:10rohanpaul_ai@rohanpaul_ai精选72°伊利诺伊大学和清华大学等实验室的研究发现,LLM智能体在持续重写自身记忆时,记忆会变得不可靠。许多智能体系统通过让LLM将混乱经验压缩成整洁教训来存储过往工作,但论文表明反复重写会逐渐损害记忆。原始经验(实际尝试和解决方案)往往比精炼后的教训更有用。在网页购物、模拟世界、应用使用和ARC-AGI谜题等任务中测试,GPT-5.4在无记忆时解决100%的ARC-AGI任务,但用正确解决方案构建记忆后,流式更新导致准确率降至约54%。失败源于错误分组、过度泛化和过拟合,记忆丢失细节、混淆任务类型或学习到仅适用于狭窄示例的规则。论文建议智能体记忆不应自动将每次经验重写为摘要,保留原始证据并仅偶尔制作摘要效果更好。论文LLM智能体记忆机制可靠性ARC-AGI经验压缩推荐理由:做AI智能体开发的团队会立刻警觉——你精心设计的记忆系统可能在悄悄退化。这篇论文用实验数据戳破了「自动总结记忆」的幻觉,建议所有用LLM做长期任务的开发者点开看看,别让记忆成为瓶颈。原文
AITOP5月29日 08:02Opus 4.8发布:编程助手的“静默时刻”,是解放开发者,还是新门槛?🔥Anthropic 把 AI 编程的“确认键”彻底删掉了!Claude Code 搭载全新 Opus 4.8 模型,长时间任务不跑偏、不废话、不中断,像一个资深工程师一样默默干活,从功能开发到漏洞清扫全包圆,你在旁边喝茶等结果就行。过去 AI 写代码三步一问“这样可以吗”,现在它直接交完整交付物……自主编程的最后一层窗户纸,被捅破了。做自动化开发和代码审查的团队,这个模型建议直接上手,效率差距肉眼可见……