EEVEE：首个面向真实世界的测试时提示学习框架，让LLM智能体自我改进

精选理由

做 LLM 智能体部署的团队终于有了处理真实异构数据流的方案——EEVEE 的提示学习框架能自动适应多任务流，建议做 Agent 落地的开发者关注。

AI 摘要

EEVEE 是首个支持多数据集测试时提示学习的框架，解决了 LLM 智能体在真实任务流中处理异构输入（来自多个数据集、领域和任务分布）的难题。现有方法多针对单数据集设计，无法应对跨数据集干扰。EEVEE 通过引入路由器将输入划分为任务簇并分配合适提示配置，采用路由器与提示协同进化策略优化。实验显示，在 Qwen3-4B-Instruct 和 DeepSeek-V3.2 上，多基准平均分分别提升 10.38 和 24.32 分，超越 SOTA 方法 GEPA 和 ACE 最高达 37.2% 和 48.2%。

AI 翻译 · 中文

arXiv cs.LGIn this paper, we propose EEVEE, the first multi-dataset test-time prompt learning framework for LLM agents, enabling test-time prompt learning under real-world task streams. Existing methods are largely designed for sin…

阅读原文