全部 AI 动态 · AI 热点

6月17日

03:29

03:29OpenAI Blog（博客/媒体）

精选

OpenAI 发布了 Deployment Simulation，一种利用真实用户对话数据来模拟模型上线后行为的方法。该方法在多个安全评估场景中测试，能提前识别出传统评估遗漏的风险。与传统静态基准不同，Deployment Simulation 可捕捉模型在动态交互中的有害输出，提升评估准确率。

论文 OpenAI Deployment Simulation AI安全安全评估

推荐理由：OpenAI 出了一套新方法，用真实对话提前模拟模型上线后的表现，能帮你更准地发现安全问题。

原文

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

6月10日

22:36

22:36IT之家（博客/媒体）

Waymo 联合代尔夫特理工大学在《自然·通讯》发表论文，提出名为 ReD（参考驾驶员）的计算机认知模型，模拟人类驾驶员在意外瞬间如何做出最优避撞决策。该模型基于“主动推理”神经科学框架，通过最小化“意外”损失来模拟人类反应，包括逼近感判断、交通规范过滤、意外阈值触发策略重评，以及 0.2 秒踏板切换停顿等细节。与仅复现“最后一秒反应”的传统模型不同，ReD 能主动预判风险并调整行为。Waymo 希望将其作为行业基准，推动自动驾驶避撞评估标准化，并已开源研究代码供学术使用。

AI产品 Waymo 自动驾驶安全评估认知模型开源

推荐理由：Waymo 用认知科学给自动驾驶安全找了个新基准——不是比谁刹车快，而是比谁更像人类老司机。做自动驾驶安全评估的团队值得看看，开源代码可以直接拿来跑实验。

原文

6月9日

09:50

arXiv cs.AI@Lu Jia, Haibo Tong, Feifei Zhao, Jindong Li, Dongqi Liang, Ping Wu, Qian Zhang, Yi Zeng

精选

VESTA 是一个全自动化的 LLM 智能体安全评估框架，能基于五个风险维度生成 1072 个可执行的评估场景。现有评估依赖人工编写场景或静态提示，难以捕捉智能体在任务执行中的多样化风险。VESTA 通过自动化流程对 12 个 LLM 智能体进行测试，发现平均安全风险率高达 47.1%，部分模型超过 70%。该框架强调了可执行、过程级评估对于理解和提升智能体安全性的重要性。

论文 LLM 智能体安全评估自动化测试风险维度 VESTA

推荐理由：做 LLM 智能体安全评估的团队终于有了自动化工具——VESTA 能生成上千个真实任务场景，直接测出模型执行中的安全漏洞。建议关注智能体安全的开发者点开看看，结果可能会让你重新审视现有模型的风险。

原文

5月22日

11:44

arXiv: Anthropic@Lukas Weidener, Marko Brkić, Mihailo Jovanović, Emre Ulgac, Aakaash Meduri

精选72°

RefusalBench是一个新的基准测试，包含141个提示（47组），通过保持任务框架不变、仅改变生物风险等级（良性、边缘、双重用途），来评估前沿大语言模型在合法生物研究提示上的拒绝行为。在2026年5月的19个前沿模型快照中，严格拒绝率从0.1%到94.6%不等，且拒绝率不能准确反映安全校准水平。例如，Grok 4.20在风险区分度上表现最佳（Youden's J = 0.787），但整体拒绝率仅排第七；Claude Opus 4.7的区分度较之前版本下降65%。该研究还发现，18个模型中有9个在双重用途提示上表现出“回避但帮助”的部分合规模式，而二元拒绝指标无法检测到这一点。

论文安全评估基准测试生物研究拒绝行为前沿模型

推荐理由：做AI安全评估或生物研究合规的团队，这个基准能帮你避开“拒绝率越高越安全”的误区——Grok 4.20的案例值得点开看看。

原文

5月19日

10:20

arXiv cs.AI@Tsafac Nkombong Regine Cyrille, Franziska Schwarz

精选

传统网络安全方法无法应对AI系统的概率性本质，导致模型反转、数据投毒和提示注入等攻击向量频发。STRIDE-AI框架填补了高层风险标准（如NIST AI RMF）与技术漏洞分类（如OWASP LLM Top 10）之间的空白。该框架定义了六阶段评估生命周期，并基于经典STRIDE模型进行了AI系统适配。通过一个部署的LLM聊天机器人的黑盒评估案例，攻击成功率从80%降至15%。该框架还提供了一个专用Web工具，便于安全团队直接使用。

论文安全评估威胁建模生成式AI LLM安全 STRIDE-AI

推荐理由：AI安全团队终于有了一个从理论到工具都落地的威胁建模框架——STRIDE-AI把NIST和OWASP的鸿沟填上了，做LLM应用安全评估的可以直接用它的Web工具跑一遍评估流程。

原文

5月15日

11:18

arXiv cs.LG@Will Schwarzer, Scott Niekum

精选

Jones等人提出一种新方法，通过从评估集中最大的k个失败分数外推，预测ML模型在部署规模下的失败率。研究给出了该估计器预测误差的有限k分解，发现其存在偏向过度预测的固有偏差（安全有利方向），但当评估集遗漏部署集中罕见的严重失败模式时，会导致预测不足。为解决这一问题，他们提出了可预测性损失（forecastability loss）作为微调目标。在语言模型密码游戏和RL网格世界两个概念验证实验中，该方法显著降低了保留集上的预测误差，同时保持了主要任务能力，并实现了与监督基线相当的安全性。

论文失败预测安全评估微调目标部署规模机器学习

推荐理由：做AI安全评估的团队终于有了一个可量化的失败预测工具——新方法解决了评估集太小无法捕捉罕见失败模式的痛点，做模型部署前风险评估的开发者可以直接参考实验方法。

原文

5月13日

00:33

00:33Google Research: Blog（资讯）

Google Research 博客更新多项AI研究成果，涵盖全球科研合作与开放资源、AI辅助科研工具、图像重构技术、基于经验学习的推理Agent、合成数据设计方法、AI加速脑神经图谱、生成式AI教育应用、用户模拟器、学术工作流AI代理及LLM行为对齐评估等10个方向。其中，ReasoningBank 让智能体从经验中学习，显著提升推理能力；AI生成合成神经元将脑图谱绘制速度提高50倍。这些进展显示了AI在基础科学、算法理论及实际应用中的广泛渗透与加速趋势。

行业 AI科研推理智能体合成数据安全评估开源/仓库

推荐理由：多项成果集中在AI辅助科研与智能体推理，尤其是ReasoningBank和AI加速脑神经研究，表明AI正从工具向自主式科研伙伴演进。对研究人员和AI工程师而言，这些开源资源和评估方法具有实践参考价值。

原文