精选理由
这篇研究戳破了“大模型=好进化器”的直觉误区,做智能体开发的团队可以重新分配预算——用便宜模型写更新,贵模型做执行,效果反而更好。
一项新研究挑战了自我进化智能体的普遍假设,即更强的模型能写出更好的提示和技能编辑。实验表明,模型生成进化更新的能力在不同能力级别上基本持平,Qwen3.5-9B与Claude Opus 4.6表现相当。而受益于这些更新的能力呈倒U型曲线,中等模型效果最佳,弱模型无法激活更新,强模型改进空间有限。因此,建议将廉价模型用于进化器角色,昂贵模型用于求解器角色,以最大化收益。该发现对构建长期任务智能体的开发者具有重要指导意义。
AI 翻译 · 中文
一项新研究挑战了自我进化智能体的普遍假设,即更强的模型能写出更好的提示和技能编辑。实验表明,模型生成进化更新的能力在不同能力级别上基本持平,Qwen3.5-9B与Claude Opus 4.6表现相当。而受益于这些更新的能力呈倒U型曲线,中等模型效果最佳,弱模型无法激活更新,强模型改进空间有限。因此,建议将廉价模型用于进化器角色,昂贵模型用于求解器角色,以最大化收益。该发现对构建长期任务智能体的开发者具有重要指导意义。
Very good advice on self-improving agents. (bookmark it) This is something I am seeing in my own experiments with coding agents and harnesses for long-horizon tasks. What I have found is that stronger models do not alway…