精选理由
做智能体工程化的团队会发现,你的 Harness 工作比想象中更可迁移——不用反复调模型,改接口就能显著提升性能,值得点开看具体实现。
一篇新论文提出一种不修改模型、只调整运行时接口(Harness)的方法,将重复交互失败转化为可复用的干预措施。在 7 个确定性环境、126 个模型-环境设置和 18 个基座模型上,该方法平均相对提升 88.5%。从一个模型轨迹学到的 Harness 可泛化到其他 17 个基座模型,说明它捕获的是环境结构而非模型特定模式。这对生产环境中部署智能体的团队有直接参考价值。
AI 翻译 · 中文
一篇新论文提出一种不修改模型、只调整运行时接口(Harness)的方法,将重复交互失败转化为可复用的干预措施。在 7 个确定性环境、126 个模型-环境设置和 18 个基座模型上,该方法平均相对提升 88.5%。从一个模型轨迹学到的 Harness 可泛化到其他 17 个基座模型,说明它捕获的是环境结构而非模型特定模式。这对生产环境中部署智能体的团队有直接参考价值。
// Adapt the Interface, Not the Model // I am fascinated by the results across my cheap-model-plus-good-harness builds. This new paper also shows good signs of the code-as-agent-harness thesis. The idea is really simple.…