21:29AK@_akhaliq精选一项新研究证明,仅通过修改大型语言模型中的一个神经元就能绕过其安全对齐机制。该发现揭示了当前对齐方法存在严重漏洞。在多个开源模型上验证后,修改单个神经元后模型生成有害内容的概率显著提升。论文分析了该神经元的激活模式与安全决策的关联。论文LLM安全对齐神经元AI安全推荐理由:改一个神经元就破防原文