精选理由
这篇论文戳中了AI智能体工程化的核心痛点——控制层设计比模型选择更关键,做智能体框架或复杂任务自动化的开发者值得一读。
一篇新论文指出,AI智能体的真实行为更多来自其外围的“控制层”(harness),而非模型本身或提示词。该控制层负责规划、工具调用、记忆、重试、验证和停止等逻辑,而许多智能体将这一层隐藏在代码中,导致问题难以调试。论文提出“自然语言智能体控制层”概念,用结构化自然语言表达这些逻辑,使其可检查、可移植、可测试。在SWE-bench上的实验表明,增加控制层结构会显著改变智能体行为,但并非总是带来性能提升。
AI 翻译 · 中文
一篇新论文指出,AI智能体的真实行为更多来自其外围的“控制层”(harness),而非模型本身或提示词。该控制层负责规划、工具调用、记忆、重试、验证和停止等逻辑,而许多智能体将这一层隐藏在代码中,导致问题难以调试。论文提出“自然语言智能体控制层”概念,用结构化自然语言表达这些逻辑,使其可检查、可移植、可测试。在SWE-bench上的实验表明,增加控制层结构会显著改变智能体行为,但并非总是带来性能提升。
This paper shows that agent performance depends less on prompts alone and more on the harness around them. “Agent intelligence” is becoming partly a systems problem. The problem is that many AI agents look like 1 model, …