09:25arXiv cs.AI@Chuan Xiao, Zhengbo Jiao, Shaobo Wang, Wei Wang, Bing Zhao, Hu Wei, Linfeng Zhang, Lin Qu72°Socratic-SWE 是一种新型闭环自我进化框架,它利用 LLM 驱动的软件工程智能体的历史解决追踪来生成训练信号。与传统的固定突变或漏洞注入方法不同,该框架将追踪提炼为结构化技能,总结重复失败和有效修复模式,并指导生成针对性的修复任务。通过执行验证和求解器梯度对齐奖励筛选任务,Socratic-SWE 在 SWE-bench Verified 等基准测试上经过三次迭代达到 50.40% 的准确率,持续超越同等计算预算下的自我进化基线。这表明解决追踪可作为可扩展的自我进化基础,为提升编程智能体能力提供了新路径。论文智能体编程助手自我进化SWE-benchLLM推荐理由:Socratic-SWE 解决了智能体训练数据依赖人工标注的瓶颈,做 AI 编程或智能体开发的团队可以直接借鉴其闭环进化思路,提升模型在真实仓库中的修复能力。原文
10:28arXiv cs.AI@Huawei Lin, Peng Li, Jie Song, Fuxin Jiang, Tieying Zhang精选MUSE-Autoskill 提出了一种以技能为中心的智能体框架,让LLM智能体能够持续创建、记忆、管理和评估技能,实现自我进化。传统方法将技能视为孤立静态的产物,而该框架通过统一的技能生命周期(创建、记忆、管理、评估、优化)显著提升了技能的可复用性和可靠性。框架引入了技能级记忆,让每个技能跨任务积累经验,从而更有效地适应新场景。在SkillsBench上的实验表明,这种生命周期管理的技能能提高任务成功率、效率、复用率,甚至支持跨智能体迁移。这项工作对构建长期自主进化的AI智能体系统具有重要参考价值。论文智能体技能管理自我进化LLM智能体生命周期推荐理由:做智能体开发或研究自主系统的团队,MUSE-Autoskill 给出了一个可落地的技能管理闭环——从创建到评估再到跨任务复用,值得直接参考其设计思路。原文
11:01arXiv cs.AI@Qianshu Cai, Yonggang Zhang, Xianzhang Jia, Wei Xue, Jun Song, Xinmei Tian, Yike Guo精选现有自主智能体系统部署后基本静态,无法从用户交互中学习,重复故障需等待人工更新修复。MOSS 提出源码级自我进化方法,直接修改智能体系统的源代码,而非仅调整文本可变的技能文件或提示配置。系统通过自动收集生产故障证据、多阶段确定性流水线生成代码修改,并在临时工作器中验证候选版本,最后通过用户同意的容器热替换实现部署。在 OpenClaw 基准测试中,MOSS 单次循环将平均评分从 0.25 提升至 0.61,无需人工干预。该方法解决了文本层无法触及的结构性故障(如路由、钩子顺序、状态不变量等),为智能体系统持续自我改进提供了更通用的框架。论文自主智能体自我进化源码重写故障修复OpenClaw推荐理由:做自主智能体系统开发的团队终于有了能自动修复代码级故障的方案——MOSS 让智能体从用户交互中学习并自我改进,建议关注其源码级重写机制如何解决传统文本层无法触及的结构性问题。原文