做 LLM Agent 开发的团队终于有了一个系统化的技能进化方法,不用再靠试错和启发式反思——Bayesian-Agent 用后验概率指导优化,效果显著且可审计,建议直接看论文和代码。
Bayesian-Agent 是一个跨框架的 LLM Agent 技能优化框架,它将可复用的技能和 SOP 视为关于冻结模型在特定提示、上下文和环境下能否成功的假设。该框架记录验证过的轨迹证据,维护每个技能的特征条件分类后验,并根据后验状态执行修补、拆分、压缩、退役和探索等操作。在 deepseek-v4-flash 上,增量修复将 SOP-Bench 从 80% 提升至 95%,Lifelong AgentBench 从 90% 提升至 100%,RealFin-Bench 从 45% 提升至 65%。该框架还支持 GenericAgent、mini-swe-agent 和 Claude Code 等后端,表明 Agent 技能进化应视为后验引导的优化,而非未校准的提示积累。代码已开源。
Bayesian-Agent 是一个跨框架的 LLM Agent 技能优化框架,它将可复用的技能和 SOP 视为关于冻结模型在特定提示、上下文和环境下能否成功的假设。该框架记录验证过的轨迹证据,维护每个技能的特征条件分类后验,并根据后验状态执行修补、拆分、压缩、退役和探索等操作。在 deepseek-v4-flash 上,增量修复将 SOP-Bench 从 80% 提升至 95%,Lifelong AgentBench 从 90% 提升至 100%,RealFin-Bench 从 45% 提升至 65%。该框架还支持 GenericAgent、mini-swe-agent 和 Claude Code 等后端,表明 Agent 技能进化应视为后验引导的优化,而非未校准的提示积累。代码已开源。
LLM agents increasingly rely on external inference conditions: prompts, tools, memory, SOPs, skills, and harness feedback. These assets can improve task execution without changing model weights, but they are often revise…