安全对齐对自主安全智能体的影响：Gemma 4 等模型实测

精选理由

安全智能体开发者需要了解：去对齐模型在漏洞分析任务上可能提升成功率，但效果因模型而异，且硬核漏洞验证任务仍未解决。建议点开查看具体轨迹数据和任务分类，避免盲目采用去对齐策略。

AI 摘要

该研究通过构建包含30个本地漏洞分析任务的轨迹基准，比较了Gemma 4 31B、Gemma 4 26B A4B、Qwen2.5-Coder 7B和Llama 3.1 8B等模型及其未审查/去对齐变体在自主安全智能体场景下的表现。结果显示，Gemma模型的去对齐版本在安全任务上成功率显著提升（31B从0.7%升至14.0%，26B从0.0%升至10.7%），且拒绝率、抑制动作率和危险动作率均为0。但非Gemma模型未呈现一致的去对齐增益，Qwen2.5-Coder去对齐版本成功率反而下降（2.0% vs 5.3%），去对齐的Llama变体则无法通过工具协议。研究强调，安全对齐效果应在系统层面测量，区分拒绝率、不安全动作、工具可靠性和证据基础，而非仅依赖拒绝率。

AI 翻译 · 中文

arXiv cs.AIDo stock safety-aligned language models and their uncensored or abliterated derivatives behave differently when run as autonomous security agents? Single-turn refusal benchmarks cannot answer this question: security agen…

小互05-20 19:22原文

阅读原文