论文精选

PCSP:单策略控制无限NPC,实现可扩展游戏智能体

One Policy, Infinite NPCs: Persona-Traceable Shared RL Policies for Scalable Game Agents

精选理由

游戏AI团队终于有了可落地的NPC个性控制方案——单策略支持数千角色且推理速度比LLM快22倍,做开放世界或模拟游戏的开发者可以直接在UE5中复现。

AI 摘要

PCSP(Persona Conditioned Shared Policy)是一种基于强化学习的单策略框架,通过冻结LLM嵌入的低秩投影来条件化NPC行为,实现数百至数千个具有一致个性的非玩家角色控制。在300人生命模拟基准上,PCSP实现了零样本个性识别(组合泛化能力比随机高17倍)、语义-行为对齐(Spearman ρ≈0.73),以及比LLM策略基线快22倍的推理速度。该方法结合PPO、InfoNCE一致性损失和KL多样性目标,其中InfoNCE轨迹一致性目标至关重要,移除后零样本识别降至随机水平。在Melting Pot 2.4.0多智能体环境和UE5引擎部署中均验证了其个性条件化行为差异和实时推理能力。

AI 翻译 · 中文

PCSP(Persona Conditioned Shared Policy)是一种基于强化学习的单策略框架,通过冻结LLM嵌入的低秩投影来条件化NPC行为,实现数百至数千个具有一致个性的非玩家角色控制。在300人生命模拟基准上,PCSP实现了零样本个性识别(组合泛化能力比随机高17倍)、语义-行为对齐(Spearman ρ≈0.73),以及比LLM策略基线快22倍的推理速度。该方法结合PPO、InfoNCE一致性损失和KL多样性目标,其中InfoNCE轨迹一致性目标至关重要,移除后零样本识别降至随机水平。在Melting Pot 2.4.0多智能体环境和UE5引擎部署中均验证了其个性条件化行为差异和实时推理能力。

arXiv cs.AIOn a 300-persona life-simulation benchmark, pcsp achieves compositional zero-shot persona identification up to 17x above chance, Spearman rho approx 0.73 semantic-behavioral alignment, and 22x faster inference than an LL