09:25arXiv cs.AI@Chuan Xiao, Zhengbo Jiao, Shaobo Wang, Wei Wang, Bing Zhao, Hu Wei, Linfeng Zhang, Lin Qu72°Socratic-SWE 是一种新型闭环自我进化框架,它利用 LLM 驱动的软件工程智能体的历史解决追踪来生成训练信号。与传统的固定突变或漏洞注入方法不同,该框架将追踪提炼为结构化技能,总结重复失败和有效修复模式,并指导生成针对性的修复任务。通过执行验证和求解器梯度对齐奖励筛选任务,Socratic-SWE 在 SWE-bench Verified 等基准测试上经过三次迭代达到 50.40% 的准确率,持续超越同等计算预算下的自我进化基线。这表明解决追踪可作为可扩展的自我进化基础,为提升编程智能体能力提供了新路径。论文智能体编程助手自我进化SWE-benchLLM推荐理由:Socratic-SWE 解决了智能体训练数据依赖人工标注的瓶颈,做 AI 编程或智能体开发的团队可以直接借鉴其闭环进化思路,提升模型在真实仓库中的修复能力。原文
01:24elvis@omarsar0微软的SkillOpt论文提出了一种让AI智能体技能自我进化的方法。一位开发者将其集成到自己的智能体编排器中,发现所有技能都获得了有效的测试框架和自进化能力。在论文图表提取技能上,应用SkillOpt后质量从0.73提升到0.93,提高了20分。作者认为这是当前智能体自我改进能力的明确例证,并指出该思路可扩展到优化智能体模式、工具使用、上下文工程等多个领域。论文智能体自我进化微软SkillOpt技能优化推荐理由:做智能体开发的团队终于有了让技能自动优化的实用框架——SkillOpt不仅提升了20%的质量,还提供了测试和自进化机制,建议直接集成到你的智能体编排器中试试。原文
08:02NVIDIA AI@NVIDIAAI精选NVIDIA 旗下 Nemotron Labs 发布了 Self-Evolving Hermes Agents,一种能够在使用中自我改进的企业级 AI 智能体。该智能体通过持续学习用户交互和反馈,自动优化自身行为,无需人工重新训练。这解决了传统企业 AI 部署后性能停滞的问题,显著降低了维护成本。Hermes Agents 基于 Nemotron 模型,专为复杂企业任务设计,如客户服务、流程自动化等。NVIDIA 在直播中展示了其在实际场景中的自适应能力,引发广泛关注。AI产品智能体企业AI自我进化NVIDIANemotron10 个信源在谈推荐理由:企业 AI 终于能自己变强了——Self-Evolving Hermes Agents 解决了部署后性能衰减的痛点,做企业级 AI 落地的团队值得关注,看看它如何通过使用自动进化。原文
23:56elvis@omarsar0精选72°一项新研究挑战了自我进化智能体的普遍假设,即更强的模型能写出更好的提示和技能编辑。实验表明,模型生成进化更新的能力在不同能力级别上基本持平,Qwen3.5-9B与Claude Opus 4.6表现相当。而受益于这些更新的能力呈倒U型曲线,中等模型效果最佳,弱模型无法激活更新,强模型改进空间有限。因此,建议将廉价模型用于进化器角色,昂贵模型用于求解器角色,以最大化收益。该发现对构建长期任务智能体的开发者具有重要指导意义。论文智能体自我进化模型选择研究论文成本优化推荐理由:这篇研究戳破了“大模型=好进化器”的直觉误区,做智能体开发的团队可以重新分配预算——用便宜模型写更新,贵模型做执行,效果反而更好。原文
15:23IT之家(博客/媒体)72°MiniMax 在 X 平台预告即将推出 M3 系列 AI 模型,并转发了一篇关于 M2 系列的 arxiv 论文。M2 系列总参数 229.9B,但每个词元仅激活 9.8B 参数,主打低激活高智能,配备 192K 上下文窗口。论文重点介绍了 M2.7 的自我进化雏形:模型能自主排查训练失败、阅读日志、修改代码,并在内部任务上完成 100 轮自主迭代,吸收团队 30%-50% 的日常迭代工作量。此外,MiniMax 还提出了面向智能体的强化学习系统 Forge,支持白盒与黑盒智能体统一接入,降低长轨迹训练成本。这些进展表明 MiniMax 在高效模型架构和模型自主迭代方面取得重要突破。AI模型MiniMaxM3系列M2系列低激活高智能自我进化推荐理由:MiniMax 的 M2 论文展示了模型开始参与自身开发闭环,做 AI 训练和模型优化的团队值得关注——自我进化能力可能改变模型迭代方式。原文
10:28arXiv cs.AI@Huawei Lin, Peng Li, Jie Song, Fuxin Jiang, Tieying Zhang精选MUSE-Autoskill 提出了一种以技能为中心的智能体框架,让LLM智能体能够持续创建、记忆、管理和评估技能,实现自我进化。传统方法将技能视为孤立静态的产物,而该框架通过统一的技能生命周期(创建、记忆、管理、评估、优化)显著提升了技能的可复用性和可靠性。框架引入了技能级记忆,让每个技能跨任务积累经验,从而更有效地适应新场景。在SkillsBench上的实验表明,这种生命周期管理的技能能提高任务成功率、效率、复用率,甚至支持跨智能体迁移。这项工作对构建长期自主进化的AI智能体系统具有重要参考价值。论文智能体技能管理自我进化LLM智能体生命周期推荐理由:做智能体开发或研究自主系统的团队,MUSE-Autoskill 给出了一个可落地的技能管理闭环——从创建到评估再到跨任务复用,值得直接参考其设计思路。原文
11:01arXiv cs.AI@Qianshu Cai, Yonggang Zhang, Xianzhang Jia, Wei Xue, Jun Song, Xinmei Tian, Yike Guo精选现有自主智能体系统部署后基本静态,无法从用户交互中学习,重复故障需等待人工更新修复。MOSS 提出源码级自我进化方法,直接修改智能体系统的源代码,而非仅调整文本可变的技能文件或提示配置。系统通过自动收集生产故障证据、多阶段确定性流水线生成代码修改,并在临时工作器中验证候选版本,最后通过用户同意的容器热替换实现部署。在 OpenClaw 基准测试中,MOSS 单次循环将平均评分从 0.25 提升至 0.61,无需人工干预。该方法解决了文本层无法触及的结构性故障(如路由、钩子顺序、状态不变量等),为智能体系统持续自我改进提供了更通用的框架。论文自主智能体自我进化源码重写故障修复OpenClaw推荐理由:做自主智能体系统开发的团队终于有了能自动修复代码级故障的方案——MOSS 让智能体从用户交互中学习并自我改进,建议关注其源码级重写机制如何解决传统文本层无法触及的结构性问题。原文