精选理由
做智能体持续学习和自主决策的团队——FORGE 用群体广播解决了记忆进化中的灾难性遗忘问题,无需微调模型权重,直接提升任务成功率。做网络防御或 POMDP 场景的开发者值得关注其低成本高回报的实践路径。
FORGE 是一种无需梯度更新的智能体记忆进化协议,通过分层 ReAct 架构和群体广播机制,让 LLM 智能体从失败轨迹中生成可复用的知识(规则、示例或混合形式)。在 CybORG CAGE-2 网络防御任务中,FORGE 使所有 12 种模型配置的平均回报提升 1.7-7.7 倍(相比零样本基线),并降低严重失败率至约 1%。关键发现包括:群体广播是性能提升的核心机制,示例记忆对多数模型效果最佳,且较弱模型受益更显著。该工作为无需权重更新的智能体持续学习提供了新范式。
AI 翻译 · 中文
FORGE 是一种无需梯度更新的智能体记忆进化协议,通过分层 ReAct 架构和群体广播机制,让 LLM 智能体从失败轨迹中生成可复用的知识(规则、示例或混合形式)。在 CybORG CAGE-2 网络防御任务中,FORGE 使所有 12 种模型配置的平均回报提升 1.7-7.7 倍(相比零样本基线),并降低严重失败率至约 1%。关键发现包括:群体广播是性能提升的核心机制,示例记忆对多数模型效果最佳,且较弱模型受益更显著。该工作为无需权重更新的智能体持续学习提供了新范式。
Can LLM agents improve decision-making through self-generated memory without gradient updates? We propose FORGE (Failure-Optimized Reflective Graduation and Evolution), a staged, population-based protocol that evolves pr…