事后API护栏不是前沿模型的安全工具：Clement Delangue提出新议程

精选理由

Hugging Face CEO提出一个务实的AI安全路线：别只靠事后护栏，要加强独立评估、分阶段发布和开源生态。

AI 摘要

Hugging Face CEO Clement Delangue认为，事后API护栏无法消除模型的危险能力，只能隐藏在脆弱的接口后面，容易被越狱（jailbroken）。他建议不要训练高风险能力，除非有强评估、理由和遏制措施；采用分阶段发布（staged release），从可信测试者到更广泛访问，并开放发布以透明和问责。他呼吁大力支持开源AI，缩小封闭实验室和政府之间的能力差距；推动独立评估，而非信任黑盒API；赋予执法、法院、监管者、审计员、记者和公民社会强大的AI工具来检测和追究非法使用。

AI 翻译 · 中文

Clement DelangueLet’s face it: after-the-fact API guardrails are not the right safety tool for frontier models. They don’t make dangerous capabilities disappear. They just hide them behind a brittle interface that can be easily jailbrok…

查看原推