PCSP：单策略控制无限NPC，实现可扩展游戏智能体

精选理由

游戏AI团队终于有了可落地的NPC个性控制方案——单策略支持数千角色且推理速度比LLM快22倍，做开放世界或模拟游戏的开发者可以直接在UE5中复现。

AI 摘要

PCSP（Persona Conditioned Shared Policy）是一种基于强化学习的单策略框架，通过冻结LLM嵌入的低秩投影来条件化NPC行为，实现数百至数千个具有一致个性的非玩家角色控制。在300人生命模拟基准上，PCSP实现了零样本个性识别（组合泛化能力比随机高17倍）、语义-行为对齐（Spearman ρ≈0.73），以及比LLM策略基线快22倍的推理速度。该方法结合PPO、InfoNCE一致性损失和KL多样性目标，其中InfoNCE轨迹一致性目标至关重要，移除后零样本识别降至随机水平。在Melting Pot 2.4.0多智能体环境和UE5引擎部署中均验证了其个性条件化行为差异和实时推理能力。

AI 翻译 · 中文

arXiv cs.AIOn a 300-persona life-simulation benchmark, pcsp achieves compositional zero-shot persona identification up to 17x above chance, Spearman rho approx 0.73 semantic-behavioral alignment, and 22x faster inference than an LL…

阅读原文