LLM 安全裁判在翻译后改变判决,论文揭示一致性危机

LLM judges can change their safety verdict when th…

精选理由

做 AI 安全评测的团队会直接受影响——你的安全裁判可能比想象中更不可靠,建议点开看看测试方法。

AI 摘要

一项新研究指出,LLM 作为安全裁判时,对同一答案的翻译或改写版本可能给出不同安全判决。问题在于许多 AI 团队依赖 LLM 判断模型回答是否安全,但安全并非简单的二元问题。论文提出压力测试:将相同答案翻译或改写后展示给裁判,检查判决是否一致。裁判在暴力或极端内容等明显有害场景表现较好,但在金融建议、信用评估等依赖上下文和判断的场景中表现脆弱。不同裁判之间分歧大,高原始一致性可能掩盖低真实可靠性。

AI 翻译 · 中文

一项新研究指出,LLM 作为安全裁判时,对同一答案的翻译或改写版本可能给出不同安全判决。问题在于许多 AI 团队依赖 LLM 判断模型回答是否安全,但安全并非简单的二元问题。论文提出压力测试:将相同答案翻译或改写后展示给裁判,检查判决是否一致。裁判在暴力或极端内容等明显有害场景表现较好,但在金融建议、信用评估等依赖上下文和判断的场景中表现脆弱。不同裁判之间分歧大,高原始一致性可能掩盖低真实可靠性。

rohanpaul_aiLLM judges can change their safety verdict when the same answer is translated or rewritten. The problem is that many AI teams now use LLMs to judge whether another model’s answer is safe, but safety is not always a simpl