10:46arXiv cs.AI@Ankita Samaddar, Sandeep Neema, Daniel Balasubramanian, Xenofon Koutsoukos本文提出一种基于模仿学习的策略学习技术,用于在部分可观测的自主网络环境中预测红方(攻击方)动作。该方法适用于离散状态和离散动作的强化学习智能体。集成到使用行为树和LECs的神经符号自主防御智能体后,该方法能有效处理不同红方策略,并在多种模拟场景下实现高预测准确率。论文模仿学习强化学习AI安全智能体网络防御推荐理由:这篇论文用模仿学习帮防守方预测攻击者行动,在模拟网络攻防场景下准确率很高。原文
10:32arXiv cs.LG@Igor Bogdanov, Chung-Horng Lung, Thomas Kunz, Jie Gao, Adrian Taylor, Marzia Zaman精选FORGE 是一种无需梯度更新的智能体记忆进化协议,通过分层 ReAct 架构和群体广播机制,让 LLM 智能体从失败轨迹中生成可复用的知识(规则、示例或混合形式)。在 CybORG CAGE-2 网络防御任务中,FORGE 使所有 12 种模型配置的平均回报提升 1.7-7.7 倍(相比零样本基线),并降低严重失败率至约 1%。关键发现包括:群体广播是性能提升的核心机制,示例记忆对多数模型效果最佳,且较弱模型受益更显著。该工作为无需权重更新的智能体持续学习提供了新范式。论文智能体记忆进化群体广播网络防御LLM推荐理由:做智能体持续学习和自主决策的团队——FORGE 用群体广播解决了记忆进化中的灾难性遗忘问题,无需微调模型权重,直接提升任务成功率。做网络防御或 POMDP 场景的开发者值得关注其低成本高回报的实践路径。原文