精选理由
对于需要系统化测试 LLM 安全性的团队,这个教程提供了从零到自定义探针的完整路径,建议直接跟着步骤搭建自己的红队流程。
本文是一篇关于 NVIDIA garak 框架的详细教程,指导用户如何构建防御性的大语言模型红队测试工作流。教程涵盖了环境搭建、插件发现、干运行、在 Hugging Face 生成器上进行真实模型扫描以及多探针评估。用户可以通过分析安全分数和攻击成功率来检查标记输出,并扩展 garak 以添加自定义探针和检测器。最后,教程演示了如何以 AVID 格式导出结果,实现结构化漏洞管理。
AI 翻译 · 中文
本文是一篇关于 NVIDIA garak 框架的详细教程,指导用户如何构建防御性的大语言模型红队测试工作流。教程涵盖了环境搭建、插件发现、干运行、在 Hugging Face 生成器上进行真实模型扫描以及多探针评估。用户可以通过分析安全分数和攻击成功率来检查标记输出,并扩展 garak 以添加自定义探针和检测器。最后,教程演示了如何以 AVID 格式导出结果,实现结构化漏洞管理。
This tutorial walks through NVIDIA garak as an end-to-end framework for defensive LLM red-teaming. It covers setup, plugin discovery, dry runs, real-model scans on a Hugging Face generator, and multi-probe evaluations. T…