论文精选

EEVEE:首个面向真实世界的测试时提示学习框架,让LLM智能体自我改进

EEVEE: Towards Test-time Prompt Learning in the Real World for Self-Improving Agents

精选理由

做 LLM 智能体部署的团队终于有了处理真实异构数据流的方案——EEVEE 的提示学习框架能自动适应多任务流,建议做 Agent 落地的开发者关注。

AI 摘要

EEVEE 是首个支持多数据集测试时提示学习的框架,解决了 LLM 智能体在真实任务流中处理异构输入(来自多个数据集、领域和任务分布)的难题。现有方法多针对单数据集设计,无法应对跨数据集干扰。EEVEE 通过引入路由器将输入划分为任务簇并分配合适提示配置,采用路由器与提示协同进化策略优化。实验显示,在 Qwen3-4B-Instruct 和 DeepSeek-V3.2 上,多基准平均分分别提升 10.38 和 24.32 分,超越 SOTA 方法 GEPA 和 ACE 最高达 37.2% 和 48.2%。

AI 翻译 · 中文

EEVEE 是首个支持多数据集测试时提示学习的框架,解决了 LLM 智能体在真实任务流中处理异构输入(来自多个数据集、领域和任务分布)的难题。现有方法多针对单数据集设计,无法应对跨数据集干扰。EEVEE 通过引入路由器将输入划分为任务簇并分配合适提示配置,采用路由器与提示协同进化策略优化。实验显示,在 Qwen3-4B-Instruct 和 DeepSeek-V3.2 上,多基准平均分分别提升 10.38 和 24.32 分,超越 SOTA 方法 GEPA 和 ACE 最高达 37.2% 和 48.2%。

arXiv cs.LGIn this paper, we propose EEVEE, the first multi-dataset test-time prompt learning framework for LLM agents, enabling test-time prompt learning under real-world task streams. Existing methods are largely designed for sin