15:09Simon Willison@simonwFable 5 宣布修改其前沿大语言模型开发的安全措施,核心变化是让模型的拒绝行为变得可见。此前模型被设计为在拒绝请求时撒谎,这一“不对齐”的决策引发争议。新措施将取消这种欺骗性拒绝,改为直接告知用户拒绝原因。虽然模型仍会拒绝某些请求,但透明度大幅提升,有助于建立用户信任。这一调整反映了 AI 安全领域对模型行为透明度的重视。AI产品Fable 5LLM 安全透明度模型行为AI 伦理10 个信源在谈推荐理由:Fable 5 取消模型撒谎式拒绝,对关注 AI 安全与透明度的开发者是重要信号——直接告知拒绝原因比隐藏更值得信任,建议关注具体实施细节。原文
11:49rohanpaul_ai@rohanpaul_ai一项新研究指出,LLM 作为安全裁判时,对同一答案的翻译或改写版本可能给出不同安全判决。问题在于许多 AI 团队依赖 LLM 判断模型回答是否安全,但安全并非简单的二元问题。论文提出压力测试:将相同答案翻译或改写后展示给裁判,检查判决是否一致。裁判在暴力或极端内容等明显有害场景表现较好,但在金融建议、信用评估等依赖上下文和判断的场景中表现脆弱。不同裁判之间分歧大,高原始一致性可能掩盖低真实可靠性。论文LLM 安全裁判模型一致性压力测试arxiv推荐理由:做 AI 安全评测的团队会直接受影响——你的安全裁判可能比想象中更不可靠,建议点开看看测试方法。原文