精选理由
做Agent框架或提示词工程的开发者,终于有了系统级的方法来优化Skills,不用再靠手动瞎改和调试了。建议直接看论文实验数据,特别是编辑预算的设置,对实际落地很有参考价值。
微软联合上海交大、复旦、同济等机构提出SkillOpt框架,将Agent Skills的优化过程自动化。该框架通过独立的优化器模型对Skill进行编辑操作,并设计harness闭环流程,只有通过验证集分数提升的修改才会被合并。实验表明,每一步设置4到8个编辑操作预算效果最佳,最终最佳Skill仅包含1到4个核心修改。该框架使GPT-5.5的直接对话准确率提升23.5%,标志着提示词工程正式进入机器学习领域。
AI 翻译 · 中文
微软联合上海交大、复旦、同济等机构提出SkillOpt框架,将Agent Skills的优化过程自动化。该框架通过独立的优化器模型对Skill进行编辑操作,并设计harness闭环流程,只有通过验证集分数提升的修改才会被合并。实验表明,每一步设置4到8个编辑操作预算效果最佳,最终最佳Skill仅包含1到4个核心修改。该框架使GPT-5.5的直接对话准确率提升23.5%,标志着提示词工程正式进入机器学习领域。
以我的经验,只有明确的可以程序自动验收标准的 Skills 才能自我进化,比如说你写个 Skill 去优化代码性能,这个代码性能是可测量可量化的,那么给一些测试样例去优化 Skill,那么能越来越好。 对于一些没有明确的验收标准的 Skill,比如你写一个写作的 Skill,写作的好坏并没有很明确的验收标准,只能是 AI “自己打分”,但是这个打分其实和真实人类的体感还是有差距,AI 打分很好的稿子可能真人看起来一股 AI 味。 真想写…