12:04arXiv cs.LG@Ruohao Guo, Wei Xu, Alan Ritter大型语言模型在作为助手的同时,也可能被恶意用户利用,通过多轮交互放大危害,包括让新手生成专业有害内容,以及规模化执行有害操作。现有研究常忽略多轮对话中的危害累积。为此,研究者提出了HarmAmp基准,涵盖12类风险场景,并设计了TrajSafe主动监控器,通过探测用户真实意图和引导模型安全完成来干预有害轨迹。实验表明,TrajSafe能显著降低多轮交互中的危害,同时保持低过度拒绝率和模型通用能力。这项工作为缓解LLM交互中的细微安全风险提供了新范式。论文LLM安全多轮对话危害放大HarmAmpTrajSafe推荐理由:多轮对话中的危害放大是LLM安全部署的盲区,做AI安全或内容审核的团队可以关注HarmAmp基准和TrajSafe方案,直接用于评估和加固自己的模型。原文