论文精选72°

SkillOpt:首个系统可控的智能体技能文本空间优化器

SkillOpt: Executive Strategy for Self-Evolving Agent Skills

精选理由

SkillOpt 解决了智能体技能无法像深度学习权重那样可靠优化的问题,做智能体开发或技能自动生成的团队可以直接用这套方法替代手工调参,效果显著且部署零开销。

AI 摘要

SkillOpt 提出了一种新方法,将智能体技能视为冻结模型的外部状态,通过独立的优化器模型对技能文档进行有界增删改编辑,并仅在严格提升验证集分数时接受修改。该方法引入了文本学习率预算、拒绝编辑缓冲区和逐轮慢/元更新机制,使技能训练稳定且部署时零额外模型调用。在 6 个基准、7 个目标模型和 3 种执行框架(直接对话、Codex、Claude Code)的 52 个测试单元中,SkillOpt 全部取得最佳或并列最佳,相比无技能基线在 GPT-5.5 上平均提升 19.1-24.8 个百分点。迁移实验表明,优化后的技能在不同模型规模、执行环境和相近数学基准间仍保持价值。

AI 翻译 · 中文

SkillOpt 提出了一种新方法,将智能体技能视为冻结模型的外部状态,通过独立的优化器模型对技能文档进行有界增删改编辑,并仅在严格提升验证集分数时接受修改。该方法引入了文本学习率预算、拒绝编辑缓冲区和逐轮慢/元更新机制,使技能训练稳定且部署时零额外模型调用。在 6 个基准、7 个目标模型和 3 种执行框架(直接对话、Codex、Claude Code)的 52 个测试单元中,SkillOpt 全部取得最佳或并列最佳,相比无技能基线在 GPT-5.5 上平均提升 19.1-24.8 个百分点。迁移实验表明,优化后的技能在不同模型规模、执行环境和相近数学基准间仍保持价值。

arXiv cs.AIAgent skills today are hand-crafted, generated one-shot, or evolved through loosely controlled self-revision, none of which behaves like a deep-learning optimizer for the skill, and none of which reliably improves over i