13:10rohanpaul_ai@rohanpaul_ai精选AGENTCL 提出一个评估语言智能体持续学习能力的新基准,通过构建任务流来测试智能体是否真正从经验中学习。该基准对比了“组合式”任务流(后续任务可复用前序任务的代码函数、研究证据或工作流)与“朴素”任务流(任务同领域但无明确复用关系)。研究发现,当前记忆方法在任务连接明显时能复用过往经验,但在任务差异较大时仍难以避免混淆。AGENTCL 旨在解决现有基准中任务关系不清晰导致的评估偏差问题。论文AGENTCL智能体持续学习记忆基准推荐理由:看智能体记忆到底行不行原文
02:18rohanpaul_ai@rohanpaul_ai精选72°一篇新论文提出CL-BENCH基准,测试AI智能体是否真正从经验中学习,而非仅依赖记忆。研究发现,简单的全上下文学习优于专门的记忆系统,Claude Sonnet 4.6在纯上下文模式下取得最佳成绩。该基准涵盖编码、数据库、预测等6个领域,要求智能体在连续任务中发现模式。结果表明,当前记忆密集型AI智能体并未比保持完整对话上下文更可靠地学习。这提醒我们,长期运行的AI智能体需要更好的方式来记住有用经验、遗忘过时信息并适应环境变化。论文智能体基准测试持续学习记忆系统Claude Sonnet推荐理由:这篇论文戳破了AI智能体“越用越聪明”的幻觉,做智能体开发或长期任务自动化的团队值得看看——你的系统可能只是在记笔记,而不是真在学习。原文
03:17elvis@omarsar0精选Continual Learning Bench 是一个新的基准测试,用于评估智能体是否真正从经验中学习。研究发现,在六个专家验证的领域内,简单的上下文学习(ICL)表现优于专门为记忆管理设计的系统。该基准引入了一个增益指标来隔离真正的学习效果,结果显示智能体经常过度拟合即时观察或未能跨实例复用知识。这表明许多记忆架构实际上增加了开销而非学习能力。论文持续学习基准测试记忆系统上下文学习智能体推荐理由:如果你在构建或研究持续学习智能体,这个基准测试直接挑战了当前记忆系统的有效性——简单ICL反而更好,值得所有AI研究者点开看看。原文
10:14rohanpaul_ai@rohanpaul_ai精选72°论文提出 FluxMem 记忆系统,将智能体记忆视为不断变化的连接网络,而非静态文件柜。它存储事实、任务片段和可复用技能作为图中的连接点,在任务执行时先收集有用记忆,再根据反馈修复连接(增删链接或调整细节)。长期运行中,重复成功的任务路径会自动转化为可复用技能。在长对话记忆、网页导航和通用助手任务上,FluxMem 取得显著提升,包括 LoCoMo 上 95.06% 平均准确率和 GAIA 上 12.73 个百分点的增益。该研究将智能体记忆从“存储-检索”范式转向“持续修复和强化有效连接”。论文智能体记忆系统图结构FluxMem持续学习推荐理由:做智能体记忆系统的开发者终于有了一个跳出传统检索范式的方案——FluxMem 用图结构动态修复连接,实测效果显著,值得深入研究其实现细节。原文
22:53rohanpaul_ai@rohanpaul_ai72°一场由顶尖研究者参与的 Transformer 与 Post-Transformer 辩论,以拳击擂台形式呈现,兼具技术深度与娱乐性。Transformer 阵营强调其规模化优势、硬件友好性和当前统治地位,认为替代者需 10 倍更好才能迫使生态切换。Post-Transformer 阵营则指出原生推理、持续学习和真正记忆是当前架构的短板,未来可能是混合架构。辩论持续 1 小时 20 分钟,涵盖从注意力机制到 latent reasoning 的多个关键点。AI模型TransformerPost-Transformer推理模型持续学习架构辩论推荐理由:这场辩论把 AI 架构之争讲得既硬核又好玩,做模型研究或关注下一代架构的开发者看完会有新视角,建议直接看原视频。原文
19:33The Rundown AI@therundownai今日AI领域多个重要动态:Biohub发布蛋白质生物学世界模型,有望加速药物发现;OpenAI基金会投入2.5亿美元推动AI颠覆性应用;还有AI代理可学习用户编辑风格、持续学习型AI等进展。这些事件标志着AI在生命科学、教育、工具等领域的深度渗透。行业蛋白质模型OpenAI基金会AI代理持续学习行业动态10 个信源在谈推荐理由:Biohub的蛋白质世界模型可能改写药物研发规则,做生物计算或制药的团队值得关注;OpenAI的2.5亿美元投入则暗示AI教育赛道即将爆发,相关从业者建议点开了解。原文
13:00Together AI@togethercomputeTogether Compute 宣布祝贺 Trajectory Labs 在 AI Native Cloud 上启动训练,专注于持续学习(Continual Learning)的前沿研究。持续学习旨在让模型在部署后不断适应新数据,避免静态模型的局限性。这一合作可能推动 AI 模型从一次性训练转向动态进化,对需要长期适应性的应用场景(如机器人、推荐系统)意义重大。Trajectory Labs 的探索代表了研究实验室对下一代 AI 架构的追求。AI模型持续学习AI Native CloudTrajectory Labs动态模型研究前沿推荐理由:持续学习是打破模型静态瓶颈的关键方向,做 AI 研究和工程化的团队值得关注 Trajectory Labs 的进展,看看他们如何用 AI Native Cloud 实现动态模型训练。原文
10:25Lenny Rachitsky@lennysan精选76°Trajectory 是一家研究实验室兼产品公司,宣布获得 1500 万美元融资,投资方包括 Conviction、Bessemer Venture Partners 等。该公司正在构建持续学习平台,能够从产品使用数据中提取信号,让企业持续后训练大规模智能体模型,使其性能超越前沿模型。Trajectory 已与 Clay、Harvey、Decagon 等 AI 原生公司合作,部分已进入生产阶段。团队汇聚了来自 DeepMind、OpenAI、Apple、Meta 等机构的顶尖研究人员。AI产品持续学习智能体后训练融资Trajectory10 个信源在谈推荐理由:持续学习是智能体落地的关键瓶颈,Trajectory 用产品使用数据后训练模型,做 AI 智能体的团队值得关注其技术路线。原文
10:22LangChain@LangChainAILangChain 在 Interrupt 大会上宣布成立 LangChain Labs,这是一个专注于智能体持续学习的应用研究团队。该实验室已与 NVIDIA、Harvey、PrimeIntellect、Fireworks_AI 和 Baseten 等公司建立早期研究合作。LangChain Labs 旨在解决智能体在长期任务中如何持续学习和适应的问题,这对于构建更可靠的 AI 代理系统至关重要。这一举措标志着 LangChain 从框架开发向前沿研究领域的扩展。AI产品LangChain智能体持续学习研究实验室NVIDIA5 个信源在谈推荐理由:LangChain Labs 聚焦智能体持续学习这一核心痛点,做 AI 代理开发的团队值得关注——它可能解决长期任务中代理性能衰减的问题,建议跟进合作动态。原文
00:09rohanpaul_ai@rohanpaul_aiTrajectory 是一家由前 DeepMind、OpenAI 和 Meta 超级智能研究员创立的初创公司,近日推出了一个持续学习平台,并获得了 1500 万美元融资。该平台旨在解决当前 AI 产品“冻结软件”的问题——用户每天都在纠正模型错误,但这些纠正很少被用来更新模型。Trajectory 的核心单元是“轨迹”,它结合了智能体的操作和用户的接受、拒绝、编辑、重试或修复行为,使公司能够基于完整的失败链进行训练,同时改进模型权重、提示词和智能体工作流。持续学习被认为是 AI 的下一个重大飞跃,能让模型在部署后从实际使用中不断改进。AI产品持续学习智能体模型部署Trajectory用户反馈10 个信源在谈推荐理由:Trajectory 解决了 AI 产品部署后无法从用户反馈中持续学习的痛点,做 AI 产品落地的团队可以直接关注这个平台,看看如何利用用户纠错来提升模型能力。原文
17:53Harrison Chase@hwchase17Harrison Chase(LangChain 创始人)在 X 上推荐了一个名为 Quarq 的开源智能体项目,其核心设计围绕记忆与持续学习能力。该智能体能够记住历史交互并从中学习,从而在长期任务中表现更稳定。这一方向解决了当前 AI 智能体缺乏长期记忆、难以持续优化的痛点。对于构建需要长期交互或个性化服务的 AI 应用的开发者来说,Quarq 提供了一个值得探索的开源方案。AI产品开源/仓库智能体记忆持续学习Quarq推荐理由:做长期交互 AI 应用的开发者终于有了一个原生支持记忆和持续学习的开源智能体,LangChain 创始人亲自推荐,值得一试。原文
16:36Gary Marcus@GaryMarcus一项新研究揭示,即使经过超万亿美元的投资,LLM智能体的记忆系统仍存在根本性缺陷。研究发现,持续更新的记忆(如压缩后的可复用记忆)不仅无法提升性能,有时甚至比完全没有记忆的表现更差,包括在已解决过的问题上。相比之下,保留原始片段的“情景记忆”更为可靠。这表明当前模型尚无法从经验中学习可复用的抽象知识,而这正是智能体持续改进的关键能力。论文LLM智能体记忆机制可靠性研究论文持续学习推荐理由:做AI智能体开发的团队值得关注——记忆机制是当前瓶颈,这篇论文直接挑战了“记忆越多越好”的假设,看完会重新思考你的记忆策略。原文