09:50arXiv cs.AI@Lu Jia, Haibo Tong, Feifei Zhao, Jindong Li, Dongqi Liang, Ping Wu, Qian Zhang, Yi Zeng精选VESTA 是一个全自动化的 LLM 智能体安全评估框架,能基于五个风险维度生成 1072 个可执行的评估场景。现有评估依赖人工编写场景或静态提示,难以捕捉智能体在任务执行中的多样化风险。VESTA 通过自动化流程对 12 个 LLM 智能体进行测试,发现平均安全风险率高达 47.1%,部分模型超过 70%。该框架强调了可执行、过程级评估对于理解和提升智能体安全性的重要性。论文LLM 智能体安全评估自动化测试风险维度VESTA推荐理由:做 LLM 智能体安全评估的团队终于有了自动化工具——VESTA 能生成上千个真实任务场景,直接测出模型执行中的安全漏洞。建议关注智能体安全的开发者点开看看,结果可能会让你重新审视现有模型的风险。原文
11:44arXiv: Anthropic@Lukas Weidener, Marko Brkić, Mihailo Jovanović, Emre Ulgac, Aakaash Meduri精选72°RefusalBench是一个新的基准测试,包含141个提示(47组),通过保持任务框架不变、仅改变生物风险等级(良性、边缘、双重用途),来评估前沿大语言模型在合法生物研究提示上的拒绝行为。在2026年5月的19个前沿模型快照中,严格拒绝率从0.1%到94.6%不等,且拒绝率不能准确反映安全校准水平。例如,Grok 4.20在风险区分度上表现最佳(Youden's J = 0.787),但整体拒绝率仅排第七;Claude Opus 4.7的区分度较之前版本下降65%。该研究还发现,18个模型中有9个在双重用途提示上表现出“回避但帮助”的部分合规模式,而二元拒绝指标无法检测到这一点。论文安全评估基准测试生物研究拒绝行为前沿模型推荐理由:做AI安全评估或生物研究合规的团队,这个基准能帮你避开“拒绝率越高越安全”的误区——Grok 4.20的案例值得点开看看。原文
10:20arXiv cs.AI@Tsafac Nkombong Regine Cyrille, Franziska Schwarz精选传统网络安全方法无法应对AI系统的概率性本质,导致模型反转、数据投毒和提示注入等攻击向量频发。STRIDE-AI框架填补了高层风险标准(如NIST AI RMF)与技术漏洞分类(如OWASP LLM Top 10)之间的空白。该框架定义了六阶段评估生命周期,并基于经典STRIDE模型进行了AI系统适配。通过一个部署的LLM聊天机器人的黑盒评估案例,攻击成功率从80%降至15%。该框架还提供了一个专用Web工具,便于安全团队直接使用。论文安全评估威胁建模生成式AILLM安全STRIDE-AI推荐理由:AI安全团队终于有了一个从理论到工具都落地的威胁建模框架——STRIDE-AI把NIST和OWASP的鸿沟填上了,做LLM应用安全评估的可以直接用它的Web工具跑一遍评估流程。原文
11:18arXiv cs.LG@Will Schwarzer, Scott Niekum精选Jones等人提出一种新方法,通过从评估集中最大的k个失败分数外推,预测ML模型在部署规模下的失败率。研究给出了该估计器预测误差的有限k分解,发现其存在偏向过度预测的固有偏差(安全有利方向),但当评估集遗漏部署集中罕见的严重失败模式时,会导致预测不足。为解决这一问题,他们提出了可预测性损失(forecastability loss)作为微调目标。在语言模型密码游戏和RL网格世界两个概念验证实验中,该方法显著降低了保留集上的预测误差,同时保持了主要任务能力,并实现了与监督基线相当的安全性。论文失败预测安全评估微调目标部署规模机器学习推荐理由:做AI安全评估的团队终于有了一个可量化的失败预测工具——新方法解决了评估集太小无法捕捉罕见失败模式的痛点,做模型部署前风险评估的开发者可以直接参考实验方法。原文