论文精选72°

GRASP:带回归感知门控的技能提案器,让LLM智能体自我改进不倒退

GRASP: Gated Regression-Aware Skill Proposer for Self-Improving LLM Agents

精选理由

做LLM智能体自我改进的团队终于有了一个不担心「修好一个、搞坏一个」的方案——GRASP用硬回归预算和门控机制确保每次改进都是净收益,临床场景提升显著,建议做智能体可靠性的开发者点开看看。

AI 摘要

LLM智能体在结构化环境中常因操作失败而非对话失败,其可靠性依赖于对环境的程序性知识。现有自我改进方法会累积自然语言指导,但不检查新条目是否破坏已有正确行为,导致修复一个轨迹却使另一个退化。GRASP将智能体改进视为对有限技能库的编辑序列,仅当候选技能在平衡的保留测试集上产生净改进且不超过硬回归预算时才被接受。在五个基础模型和两个临床基准上,GRASP将gpt-oss-120b从40.6%提升至88.8%,超过最强基线21.0个百分点,并提升其他模型17.2至40.3个百分点。该方法还泛化到非临床环境,且技能库可在模型间迁移,强模型技能能提升弱模型表现,反之则不行。

AI 翻译 · 中文

LLM智能体在结构化环境中常因操作失败而非对话失败,其可靠性依赖于对环境的程序性知识。现有自我改进方法会累积自然语言指导,但不检查新条目是否破坏已有正确行为,导致修复一个轨迹却使另一个退化。GRASP将智能体改进视为对有限技能库的编辑序列,仅当候选技能在平衡的保留测试集上产生净改进且不超过硬回归预算时才被接受。在五个基础模型和两个临床基准上,GRASP将gpt-oss-120b从40.6%提升至88.8%,超过最强基线21.0个百分点,并提升其他模型17.2至40.3个百分点。该方法还泛化到非临床环境,且技能库可在模型间迁移,强模型技能能提升弱模型表现,反之则不行。

arXiv: DeepSeekLLM agents acting in structured environments fail in operational rather than conversational ways, and reliability depends on procedural knowledge of the environment. Prior self-improvement methods accumulate natural-lang