论文精选76°

将智能体工作流编译进LLM权重:成本降低两个数量级,质量接近前沿模型

Compiling Agentic Workflows into LLM Weights: Near-Frontier Quality at Two Orders of Magnitude Less Cost

精选理由

做智能体编排的团队终于有了低成本替代方案——把工作流写进模型权重而非上下文,成本降两个数量级,质量不掉。做客服、保险、旅行预订自动化的开发者可以直接看论文里的14节点和55节点案例。

AI 摘要

当前智能体编排框架(如LangGraph、CrewAI等)已超过29万GitHub星标,但都依赖外部编排器,每次交互都需注入指令和路由决策,消耗上下文窗口且依赖前沿模型。最新研究提出将工作流直接编译进小模型权重,创建“地下智能体”,在旅行预订、Zoom支持、保险理赔三个任务上,以不到前沿模型1%的成本达到接近前沿模型的质量。该方法解决了程序化任务中编排架构的三大痛点:上下文窗口消耗、必须使用前沿模型、专有流程暴露给第三方。研究团队通过实证表明,小模型微调后能完全内化复杂工作流,无需外部编排。

AI 翻译 · 中文

当前智能体编排框架(如LangGraph、CrewAI等)已超过29万GitHub星标,但都依赖外部编排器,每次交互都需注入指令和路由决策,消耗上下文窗口且依赖前沿模型。最新研究提出将工作流直接编译进小模型权重,创建“地下智能体”,在旅行预订、Zoom支持、保险理赔三个任务上,以不到前沿模型1%的成本达到接近前沿模型的质量。该方法解决了程序化任务中编排架构的三大痛点:上下文窗口消耗、必须使用前沿模型、专有流程暴露给第三方。研究团队通过实证表明,小模型微调后能完全内化复杂工作流,无需外部编排。

arXiv: OpenAIAgent orchestration frameworks have proliferated, collectively exceeding 290,000 GitHub stars across LangGraph, CrewAI, Google ADK, OpenAI Agents SDK, Semantic Kernel, Strands, and LlamaIndex. All follow the same pattern