论文：智能体性能更依赖“控制层”而非提示词

精选理由

这篇论文戳中了AI智能体工程化的核心痛点——控制层设计比模型选择更关键，做智能体框架或复杂任务自动化的开发者值得一读。

AI 摘要

一篇新论文指出，AI智能体的真实行为更多来自其外围的“控制层”（harness），而非模型本身或提示词。该控制层负责规划、工具调用、记忆、重试、验证和停止等逻辑，而许多智能体将这一层隐藏在代码中，导致问题难以调试。论文提出“自然语言智能体控制层”概念，用结构化自然语言表达这些逻辑，使其可检查、可移植、可测试。在SWE-bench上的实验表明，增加控制层结构会显著改变智能体行为，但并非总是带来性能提升。

AI 翻译 · 中文

rohanpaul_aiThis paper shows that agent performance depends less on prompts alone and more on the harness around them. “Agent intelligence” is becoming partly a systems problem. The problem is that many AI agents look like 1 model, …

查看原推