Code as a Weapon：恶意代码请求的共识标注提示库

精选理由

编程模型的安全风险比通用模型高一个量级——返回的代码可以直接运行成武器。做AI安全评估的团队终于有了经过共识验证的测试集，建议用这个库来检验自家模型的拒绝边界。

AI 摘要

该论文指出，通用语言模型回答有害问题返回文本，而编程模型若遵从恶意请求可能返回可运行的武器（如键盘记录器、勒索软件）。因此，编程模型应比通用模型有更高的拒绝标准，但现有基准测试碎片化，无法有效衡量。作者整合了8个语料库（共6675条提示），通过5位评审共识协议分类，区分了可执行恶意代码请求（CODE）和有害安全知识请求（KNOWLEDGE）。最终发布了4748条CODE提示和1923条KNOWLEDGE提示，为评估编程模型对恶意代码的拒绝能力提供了可靠工具。

AI 翻译 · 中文

arXiv cs.LGA general-purpose language model that answers a harmful question returns text; a coding model that complies with a malicious request can return a working weapon -- a keylogger, a ransomware stub, an exploit that runs as …

阅读原文