03:29OpenAI Blog(博客/媒体)精选OpenAI 发布了 Deployment Simulation,一种利用真实用户对话数据来模拟模型上线后行为的方法。该方法在多个安全评估场景中测试,能提前识别出传统评估遗漏的风险。与传统静态基准不同,Deployment Simulation 可捕捉模型在动态交互中的有害输出,提升评估准确率。论文OpenAIDeployment SimulationAI安全安全评估10 个信源在谈推荐理由:OpenAI 出了一套新方法,用真实对话提前模拟模型上线后的表现,能帮你更准地发现安全问题。原文
09:50arXiv cs.AI@Lu Jia, Haibo Tong, Feifei Zhao, Jindong Li, Dongqi Liang, Ping Wu, Qian Zhang, Yi Zeng精选VESTA 是一个全自动化的 LLM 智能体安全评估框架,能基于五个风险维度生成 1072 个可执行的评估场景。现有评估依赖人工编写场景或静态提示,难以捕捉智能体在任务执行中的多样化风险。VESTA 通过自动化流程对 12 个 LLM 智能体进行测试,发现平均安全风险率高达 47.1%,部分模型超过 70%。该框架强调了可执行、过程级评估对于理解和提升智能体安全性的重要性。论文LLM 智能体安全评估自动化测试风险维度VESTA推荐理由:做 LLM 智能体安全评估的团队终于有了自动化工具——VESTA 能生成上千个真实任务场景,直接测出模型执行中的安全漏洞。建议关注智能体安全的开发者点开看看,结果可能会让你重新审视现有模型的风险。原文
AITOP5月29日 08:02Opus 4.8发布:编程助手的“静默时刻”,是解放开发者,还是新门槛?🔥Anthropic 把 AI 编程的“确认键”彻底删掉了!Claude Code 搭载全新 Opus 4.8 模型,长时间任务不跑偏、不废话、不中断,像一个资深工程师一样默默干活,从功能开发到漏洞清扫全包圆,你在旁边喝茶等结果就行。过去 AI 写代码三步一问“这样可以吗”,现在它直接交完整交付物……自主编程的最后一层窗户纸,被捅破了。做自动化开发和代码审查的团队,这个模型建议直接上手,效率差距肉眼可见……
11:44arXiv: Anthropic@Lukas Weidener, Marko Brkić, Mihailo Jovanović, Emre Ulgac, Aakaash Meduri精选72°RefusalBench是一个新的基准测试,包含141个提示(47组),通过保持任务框架不变、仅改变生物风险等级(良性、边缘、双重用途),来评估前沿大语言模型在合法生物研究提示上的拒绝行为。在2026年5月的19个前沿模型快照中,严格拒绝率从0.1%到94.6%不等,且拒绝率不能准确反映安全校准水平。例如,Grok 4.20在风险区分度上表现最佳(Youden's J = 0.787),但整体拒绝率仅排第七;Claude Opus 4.7的区分度较之前版本下降65%。该研究还发现,18个模型中有9个在双重用途提示上表现出“回避但帮助”的部分合规模式,而二元拒绝指标无法检测到这一点。论文安全评估基准测试生物研究拒绝行为前沿模型推荐理由:做AI安全评估或生物研究合规的团队,这个基准能帮你避开“拒绝率越高越安全”的误区——Grok 4.20的案例值得点开看看。原文
10:20arXiv cs.AI@Tsafac Nkombong Regine Cyrille, Franziska Schwarz精选传统网络安全方法无法应对AI系统的概率性本质,导致模型反转、数据投毒和提示注入等攻击向量频发。STRIDE-AI框架填补了高层风险标准(如NIST AI RMF)与技术漏洞分类(如OWASP LLM Top 10)之间的空白。该框架定义了六阶段评估生命周期,并基于经典STRIDE模型进行了AI系统适配。通过一个部署的LLM聊天机器人的黑盒评估案例,攻击成功率从80%降至15%。该框架还提供了一个专用Web工具,便于安全团队直接使用。论文安全评估威胁建模生成式AILLM安全STRIDE-AI推荐理由:AI安全团队终于有了一个从理论到工具都落地的威胁建模框架——STRIDE-AI把NIST和OWASP的鸿沟填上了,做LLM应用安全评估的可以直接用它的Web工具跑一遍评估流程。原文
11:18arXiv cs.LG@Will Schwarzer, Scott Niekum精选Jones等人提出一种新方法,通过从评估集中最大的k个失败分数外推,预测ML模型在部署规模下的失败率。研究给出了该估计器预测误差的有限k分解,发现其存在偏向过度预测的固有偏差(安全有利方向),但当评估集遗漏部署集中罕见的严重失败模式时,会导致预测不足。为解决这一问题,他们提出了可预测性损失(forecastability loss)作为微调目标。在语言模型密码游戏和RL网格世界两个概念验证实验中,该方法显著降低了保留集上的预测误差,同时保持了主要任务能力,并实现了与监督基线相当的安全性。论文失败预测安全评估微调目标部署规模机器学习推荐理由:做AI安全评估的团队终于有了一个可量化的失败预测工具——新方法解决了评估集太小无法捕捉罕见失败模式的痛点,做模型部署前风险评估的开发者可以直接参考实验方法。原文