精选 AI 资讯 · AI 热点

6月17日

03:29

03:29OpenAI Blog（博客/媒体）

精选

OpenAI 发布了 Deployment Simulation，一种利用真实用户对话数据来模拟模型上线后行为的方法。该方法在多个安全评估场景中测试，能提前识别出传统评估遗漏的风险。与传统静态基准不同，Deployment Simulation 可捕捉模型在动态交互中的有害输出，提升评估准确率。

论文 OpenAI Deployment Simulation AI安全安全评估

推荐理由：OpenAI 出了一套新方法，用真实对话提前模拟模型上线后的表现，能帮你更准地发现安全问题。

原文

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

6月9日

09:50

arXiv cs.AI@Lu Jia, Haibo Tong, Feifei Zhao, Jindong Li, Dongqi Liang, Ping Wu, Qian Zhang, Yi Zeng

精选

VESTA 是一个全自动化的 LLM 智能体安全评估框架，能基于五个风险维度生成 1072 个可执行的评估场景。现有评估依赖人工编写场景或静态提示，难以捕捉智能体在任务执行中的多样化风险。VESTA 通过自动化流程对 12 个 LLM 智能体进行测试，发现平均安全风险率高达 47.1%，部分模型超过 70%。该框架强调了可执行、过程级评估对于理解和提升智能体安全性的重要性。

论文 LLM 智能体安全评估自动化测试风险维度 VESTA

推荐理由：做 LLM 智能体安全评估的团队终于有了自动化工具——VESTA 能生成上千个真实任务场景，直接测出模型执行中的安全漏洞。建议关注智能体安全的开发者点开看看，结果可能会让你重新审视现有模型的风险。

原文

6月1日

00:09

AITOP6月1日 00:09

OpenAI 发起“Codex for Open Source”：免费赠送 6 个月 Pro 订阅，开源维护者能否迎来 AI 变革？

5月29日

08:02

AITOP5月29日 08:02

Opus 4.8发布：编程助手的“静默时刻”，是解放开发者，还是新门槛？🔥Anthropic 把 AI 编程的“确认键”彻底删掉了！Claude Code 搭载全新 Opus 4.8 模型，长时间任务不跑偏、不废话、不中断，像一个资深工程师一样默默干活，从功能开发到漏洞清扫全包圆，你在旁边喝茶等结果就行。过去 AI 写代码三步一问“这样可以吗”，现在它直接交完整交付物……自主编程的最后一层窗户纸，被捅破了。做自动化开发和代码审查的团队，这个模型建议直接上手，效率差距肉眼可见……

5月22日

11:44

arXiv: Anthropic@Lukas Weidener, Marko Brkić, Mihailo Jovanović, Emre Ulgac, Aakaash Meduri

精选72°

RefusalBench是一个新的基准测试，包含141个提示（47组），通过保持任务框架不变、仅改变生物风险等级（良性、边缘、双重用途），来评估前沿大语言模型在合法生物研究提示上的拒绝行为。在2026年5月的19个前沿模型快照中，严格拒绝率从0.1%到94.6%不等，且拒绝率不能准确反映安全校准水平。例如，Grok 4.20在风险区分度上表现最佳（Youden's J = 0.787），但整体拒绝率仅排第七；Claude Opus 4.7的区分度较之前版本下降65%。该研究还发现，18个模型中有9个在双重用途提示上表现出“回避但帮助”的部分合规模式，而二元拒绝指标无法检测到这一点。

论文安全评估基准测试生物研究拒绝行为前沿模型

推荐理由：做AI安全评估或生物研究合规的团队，这个基准能帮你避开“拒绝率越高越安全”的误区——Grok 4.20的案例值得点开看看。

原文

5月19日

10:20

arXiv cs.AI@Tsafac Nkombong Regine Cyrille, Franziska Schwarz

精选

传统网络安全方法无法应对AI系统的概率性本质，导致模型反转、数据投毒和提示注入等攻击向量频发。STRIDE-AI框架填补了高层风险标准（如NIST AI RMF）与技术漏洞分类（如OWASP LLM Top 10）之间的空白。该框架定义了六阶段评估生命周期，并基于经典STRIDE模型进行了AI系统适配。通过一个部署的LLM聊天机器人的黑盒评估案例，攻击成功率从80%降至15%。该框架还提供了一个专用Web工具，便于安全团队直接使用。

论文安全评估威胁建模生成式AI LLM安全 STRIDE-AI

推荐理由：AI安全团队终于有了一个从理论到工具都落地的威胁建模框架——STRIDE-AI把NIST和OWASP的鸿沟填上了，做LLM应用安全评估的可以直接用它的Web工具跑一遍评估流程。

原文

5月15日

11:18

arXiv cs.LG@Will Schwarzer, Scott Niekum

精选

Jones等人提出一种新方法，通过从评估集中最大的k个失败分数外推，预测ML模型在部署规模下的失败率。研究给出了该估计器预测误差的有限k分解，发现其存在偏向过度预测的固有偏差（安全有利方向），但当评估集遗漏部署集中罕见的严重失败模式时，会导致预测不足。为解决这一问题，他们提出了可预测性损失（forecastability loss）作为微调目标。在语言模型密码游戏和RL网格世界两个概念验证实验中，该方法显著降低了保留集上的预测误差，同时保持了主要任务能力，并实现了与监督基线相当的安全性。

论文失败预测安全评估微调目标部署规模机器学习

推荐理由：做AI安全评估的团队终于有了一个可量化的失败预测工具——新方法解决了评估集太小无法捕捉罕见失败模式的痛点，做模型部署前风险评估的开发者可以直接参考实验方法。

原文