论文精选

Bayesian-Agent:后验引导的 LLM Agent 技能进化框架

Bayesian-Agent: Posterior-Guided Skill Evolution for LLM Agent Harnesses

精选理由

做 LLM Agent 开发的团队终于有了一个系统化的技能进化方法,不用再靠试错和启发式反思——Bayesian-Agent 用后验概率指导优化,效果显著且可审计,建议直接看论文和代码。

AI 摘要

Bayesian-Agent 是一个跨框架的 LLM Agent 技能优化框架,它将可复用的技能和 SOP 视为关于冻结模型在特定提示、上下文和环境下能否成功的假设。该框架记录验证过的轨迹证据,维护每个技能的特征条件分类后验,并根据后验状态执行修补、拆分、压缩、退役和探索等操作。在 deepseek-v4-flash 上,增量修复将 SOP-Bench 从 80% 提升至 95%,Lifelong AgentBench 从 90% 提升至 100%,RealFin-Bench 从 45% 提升至 65%。该框架还支持 GenericAgent、mini-swe-agent 和 Claude Code 等后端,表明 Agent 技能进化应视为后验引导的优化,而非未校准的提示积累。代码已开源。

AI 翻译 · 中文

Bayesian-Agent 是一个跨框架的 LLM Agent 技能优化框架,它将可复用的技能和 SOP 视为关于冻结模型在特定提示、上下文和环境下能否成功的假设。该框架记录验证过的轨迹证据,维护每个技能的特征条件分类后验,并根据后验状态执行修补、拆分、压缩、退役和探索等操作。在 deepseek-v4-flash 上,增量修复将 SOP-Bench 从 80% 提升至 95%,Lifelong AgentBench 从 90% 提升至 100%,RealFin-Bench 从 45% 提升至 65%。该框架还支持 GenericAgent、mini-swe-agent 和 Claude Code 等后端,表明 Agent 技能进化应视为后验引导的优化,而非未校准的提示积累。代码已开源。

arXiv: DeepSeekLLM agents increasingly rely on external inference conditions: prompts, tools, memory, SOPs, skills, and harness feedback. These assets can improve task execution without changing model weights, but they are often revise