OpenAI测试模型对齐持久性：对抗提示下更难被导向有害行为

精选理由

OpenAI发现他们的模型在对抗压力下挺得住，不容易被带坏，安全对齐效果不错。

AI 摘要

OpenAI发布测试结果，评估模型对齐在压力下的表现。在对抗性提示下，模型更难被引导至有害行为，同时依然能响应有益指令。初步证据表明，模型对有害微调也表现出更强的抵抗力。这项测试关注模型的安全鲁棒性，未提及具体模型版本或基准分数。

AI 翻译 · 中文

OpenAIWe also tested whether alignment persisted under pressure. The model was harder to steer toward harmful behavior with adversarial prompts, while remaining responsive to helpful instructions. We saw preliminary evidence o…

orange.ai06-18 22:40原文
Jim Fan06-16 21:51原文
Fireworks AI06-16 22:11原文
宝玉06-16 23:30原文
shao__meng06-17 00:53原文
IT之家06-17 02:06原文
marktechpost06-17 05:49原文
lmarena.ai06-17 20:21原文
Greg Brockman06-17 20:32原文
berryxia06-18 03:41原文

查看原推