16:09berryxia@berryxia精选Anthropic内部工程师运行300多个自改进的agent swarm来提升系统可靠性。核心方法是给模型验证自身输出的机制,包括计划模式、动态工作流和自我检查,根据真实反馈迭代。这种闭环系统让agent从一次性工具变为能自我迭代的系统,可靠性大幅提升但token消耗更高。效果远超大多数300美元的agent课程。技巧Anthropic智能体agent工作流自改进10 个信源在谈推荐理由:Anthropic工程师自己怎么用agent?300个自改进swarm加闭环验证,比花300美元买课实用多了。原文
13:48AlphaSignal@AlphaSignalAI精选SIA论文提出将智能体视为可编辑系统,更新目标包括工具、解析器、验证器和权重。在LawBench基准上达到70.1%准确率。其CUDA内核运行仅1,017微秒,去噪任务mse_norm为0.289。论文提供公开仓库,支持选择聚焦于工具链或权重。核心结论是自改进智能体的性能取决于验证器质量。论文SIALawBench智能体自改进验证器推荐理由:这篇SIA讲一个让智能体自己改进的方法,不只调提示,还能改工具和权重,在LawBench上做到了70.1%,代码也开源了。原文
11:12elvis@omarsar0研究者omarsar0分享了构建自改进AI系统的经验,可以通过选择论文和方法即时创建新功能。系统能根据自生成评估决定是否保留或丢弃功能,目标是实现无需人工干预的自我维护。这一工作流展示了如何利用论文复现功能快速测试新想法。技巧自改进AI系统构建论文复现工作流推荐理由:手把手教你自改进AI原文
09:56elvis@omarsar076°Omar Sar在推文中分享了他构建的一个自改进编程代理,该代理通过简单的读写和bash命令实现自我改进。他用这个代理在24小时内完成了一个生产级应用的开发,感叹这种能力在当今是可能的。这展示了AI编程代理的潜力,能够大幅提升开发效率,甚至可能改变软件开发的方式。AI产品编程代理自改进生产级应用AI开发效率提升1 个信源在谈推荐理由:Omar Sar的自改进编程代理展示了AI在软件开发中的惊人潜力,24小时构建生产级应用,做开发或AI应用的团队值得关注,可能会改变你的开发流程。原文