03:29OpenAI Blog(博客/媒体)精选OpenAI 发布了 Deployment Simulation,一种利用真实用户对话数据来模拟模型上线后行为的方法。该方法在多个安全评估场景中测试,能提前识别出传统评估遗漏的风险。与传统静态基准不同,Deployment Simulation 可捕捉模型在动态交互中的有害输出,提升评估准确率。论文OpenAIDeployment SimulationAI安全安全评估10 个信源在谈推荐理由:OpenAI 出了一套新方法,用真实对话提前模拟模型上线后的表现,能帮你更准地发现安全问题。原文
22:36IT之家(博客/媒体)Waymo 联合代尔夫特理工大学在《自然·通讯》发表论文,提出名为 ReD(参考驾驶员)的计算机认知模型,模拟人类驾驶员在意外瞬间如何做出最优避撞决策。该模型基于“主动推理”神经科学框架,通过最小化“意外”损失来模拟人类反应,包括逼近感判断、交通规范过滤、意外阈值触发策略重评,以及 0.2 秒踏板切换停顿等细节。与仅复现“最后一秒反应”的传统模型不同,ReD 能主动预判风险并调整行为。Waymo 希望将其作为行业基准,推动自动驾驶避撞评估标准化,并已开源研究代码供学术使用。AI产品Waymo自动驾驶安全评估认知模型开源推荐理由:Waymo 用认知科学给自动驾驶安全找了个新基准——不是比谁刹车快,而是比谁更像人类老司机。做自动驾驶安全评估的团队值得看看,开源代码可以直接拿来跑实验。原文
09:50arXiv cs.AI@Lu Jia, Haibo Tong, Feifei Zhao, Jindong Li, Dongqi Liang, Ping Wu, Qian Zhang, Yi Zeng精选VESTA 是一个全自动化的 LLM 智能体安全评估框架,能基于五个风险维度生成 1072 个可执行的评估场景。现有评估依赖人工编写场景或静态提示,难以捕捉智能体在任务执行中的多样化风险。VESTA 通过自动化流程对 12 个 LLM 智能体进行测试,发现平均安全风险率高达 47.1%,部分模型超过 70%。该框架强调了可执行、过程级评估对于理解和提升智能体安全性的重要性。论文LLM 智能体安全评估自动化测试风险维度VESTA推荐理由:做 LLM 智能体安全评估的团队终于有了自动化工具——VESTA 能生成上千个真实任务场景,直接测出模型执行中的安全漏洞。建议关注智能体安全的开发者点开看看,结果可能会让你重新审视现有模型的风险。原文
11:44arXiv: Anthropic@Lukas Weidener, Marko Brkić, Mihailo Jovanović, Emre Ulgac, Aakaash Meduri精选72°RefusalBench是一个新的基准测试,包含141个提示(47组),通过保持任务框架不变、仅改变生物风险等级(良性、边缘、双重用途),来评估前沿大语言模型在合法生物研究提示上的拒绝行为。在2026年5月的19个前沿模型快照中,严格拒绝率从0.1%到94.6%不等,且拒绝率不能准确反映安全校准水平。例如,Grok 4.20在风险区分度上表现最佳(Youden's J = 0.787),但整体拒绝率仅排第七;Claude Opus 4.7的区分度较之前版本下降65%。该研究还发现,18个模型中有9个在双重用途提示上表现出“回避但帮助”的部分合规模式,而二元拒绝指标无法检测到这一点。论文安全评估基准测试生物研究拒绝行为前沿模型推荐理由:做AI安全评估或生物研究合规的团队,这个基准能帮你避开“拒绝率越高越安全”的误区——Grok 4.20的案例值得点开看看。原文
10:20arXiv cs.AI@Tsafac Nkombong Regine Cyrille, Franziska Schwarz精选传统网络安全方法无法应对AI系统的概率性本质,导致模型反转、数据投毒和提示注入等攻击向量频发。STRIDE-AI框架填补了高层风险标准(如NIST AI RMF)与技术漏洞分类(如OWASP LLM Top 10)之间的空白。该框架定义了六阶段评估生命周期,并基于经典STRIDE模型进行了AI系统适配。通过一个部署的LLM聊天机器人的黑盒评估案例,攻击成功率从80%降至15%。该框架还提供了一个专用Web工具,便于安全团队直接使用。论文安全评估威胁建模生成式AILLM安全STRIDE-AI推荐理由:AI安全团队终于有了一个从理论到工具都落地的威胁建模框架——STRIDE-AI把NIST和OWASP的鸿沟填上了,做LLM应用安全评估的可以直接用它的Web工具跑一遍评估流程。原文
11:18arXiv cs.LG@Will Schwarzer, Scott Niekum精选Jones等人提出一种新方法,通过从评估集中最大的k个失败分数外推,预测ML模型在部署规模下的失败率。研究给出了该估计器预测误差的有限k分解,发现其存在偏向过度预测的固有偏差(安全有利方向),但当评估集遗漏部署集中罕见的严重失败模式时,会导致预测不足。为解决这一问题,他们提出了可预测性损失(forecastability loss)作为微调目标。在语言模型密码游戏和RL网格世界两个概念验证实验中,该方法显著降低了保留集上的预测误差,同时保持了主要任务能力,并实现了与监督基线相当的安全性。论文失败预测安全评估微调目标部署规模机器学习推荐理由:做AI安全评估的团队终于有了一个可量化的失败预测工具——新方法解决了评估集太小无法捕捉罕见失败模式的痛点,做模型部署前风险评估的开发者可以直接参考实验方法。原文
00:33Google Research: Blog(资讯)Google Research 博客更新多项AI研究成果,涵盖全球科研合作与开放资源、AI辅助科研工具、图像重构技术、基于经验学习的推理Agent、合成数据设计方法、AI加速脑神经图谱、生成式AI教育应用、用户模拟器、学术工作流AI代理及LLM行为对齐评估等10个方向。其中,ReasoningBank 让智能体从经验中学习,显著提升推理能力;AI生成合成神经元将脑图谱绘制速度提高50倍。这些进展显示了AI在基础科学、算法理论及实际应用中的广泛渗透与加速趋势。行业AI科研推理智能体合成数据安全评估开源/仓库推荐理由:多项成果集中在AI辅助科研与智能体推理,尤其是ReasoningBank和AI加速脑神经研究,表明AI正从工具向自主式科研伙伴演进。对研究人员和AI工程师而言,这些开源资源和评估方法具有实践参考价值。原文