全部 AI 动态 · AI 热点

6月25日

10:43

arXiv cs.LG@Seth Dobrin, Łukasz Chmiel

该论文提出Unfireable Safety Kernel，一种执行时AI对齐机制，满足四个属性：进程隔离、结构唯一路径预执行、请求和系统级故障关闭、外部可验证签名证据。Rust参考实现通过Z3定理证明和Kani模型检查（4/4 harnesses）机器验证了故障关闭不变性。在可逃逸AI系统上测试，面对逃逸攻击者，1000次自我修改中所有704次对安全核心的尝试被拒绝，无逃逸；6240次授权往返无成功绕过。相比3个声称控制智能体平面的当代系统，该内核使智能体失去控制选项。

论文 Unfireable Safety Kernel AI Agent 安全对齐形式验证 Rust

推荐理由：这篇论文用Rust和形式化验证搞了个安全内核，1000次自修改加6240次授权测试都拦住了逃逸，比那些吹控制智能体的系统实在多了。

原文

6月19日

11:06

arXiv cs.LG@Sihui Dai, Mann Patel

该论文通过混合良性合规示范（无害请求、有用回复）与有害合规示范（有害请求、有用回复），测试了三种关于示范组合如何导致有害合规的假设。在四个模型中，良性示范与有害示范不可互换：良性示范可能减少或增加有害合规，取决于模型。研究发现偏好优化是关键训练阶段，可防止良性示范增加有害合规；示范排序存在强烈的近因偏差；模型在拒绝与上下文学习交互时表现不同。

论文 LLM jailbreak demonstration in-context learning 安全对齐

推荐理由：这篇论文解释了为什么不同的合规示范会以不同方式影响模型，帮你理解LLM的jailbreak机制，不只是实证而是分析原理。

原文

6月17日

10:18

arXiv cs.LG@Ning Ni, Yingjie Lao

AnchorKV是一种即插即用的KV缓存压缩方法，通过构建离线安全锚点来偏置token保留分数，使其远离有害提示对应的键空间方向。该方法采用差异均值表征工程技术，在逐层键投影空间中提取拒绝方向，并引入软惩罚token选择规则。在保持压缩效率的同时，AnchorKV能显著提升LLM的安全对齐能力，抵御越狱攻击。实验表明，在适度牺牲少量性能的情况下，该方法可有效降低有害输出率。

AI模型 AnchorKV KV缓存压缩越狱攻击安全对齐

推荐理由：想压缩KV缓存又怕模型不安全？AnchorKV用软惩罚巧妙拒绝有害token，既省内存又防越狱，适合部署场景。

原文

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

10:11

arXiv cs.LG@Chirag Chawla, Pratinav Seth, Vinay Kumar Sankarapu

精选

ALIGNBEAM 是一种无需训练的推理时安全对齐方法，解决了领域微调导致大语言模型安全性下降的问题。现有方法要求安全锚点模型和目标模型共享词汇表，但 ALIGNBEAM 通过逐 token 翻译锚点 logits 到目标模型词汇表，并利用小型 LLM 法官选择最安全的候选续写，突破了这一限制。该方法不改变任何模型权重，可在部署时调整安全-效用权衡。在跨词汇表和同词汇表评估中，ALIGNBEAM 显著提升了对抗性基准的拒绝率，同时保持任务准确性和推理开销在实用范围内。结果表明，安全对齐可以在推理时在不同模型家族之间转移，无需修改任何模型权重。

论文安全对齐推理时防御跨词汇表 LLM ALIGNBEAM

推荐理由：做模型安全对齐的团队终于有了跨家族迁移方案——ALIGNBEAM 无需训练即可在推理时转移安全能力，适合需要部署不同系列模型但担心安全退化的开发者直接尝试。

原文

6月9日

12:41

arXiv cs.AI@Blake Bullwinkel, Eugenia Kim, Amanda Minnich, Mark Russinovich

精选

本文提出AdvGRPO框架，解决了GRPO在攻防协同训练中不稳定的问题。通过密集多通道奖励和分离优势归一化，使攻击者和防御者模型交替更新，从单轮攻击逐步过渡到多轮闭环攻击。实验表明，该方法能生成高效且可迁移的攻击，协同训练的防御者在安全基准上优于基线。这项工作为语言模型的安全对齐提供了新的自适应红队方法。

论文红队测试 GRPO 攻防协同安全对齐强化学习

推荐理由：做AI安全对齐的团队终于有了一个稳定的GRPO攻防协同训练方案，能同时提升攻击发现能力和防御鲁棒性，建议做红队测试的开发者直接参考。

原文

6月2日

12:01

arXiv cs.AI@Hao Li, Jingkun An, Zijun Song, Pengyu Zhu, Rui Li, Hao Wang, Wendi Feng, Yesheng Liu, Lijun Li, Jin-Ge Yao, Lei Sha

精选

大型语言模型（LLM）与人类价值观对齐时，往往会损害通用能力，即“对齐税”。现有方法通过平衡双重目标来缓解，但依赖大量通用数据或辅助奖励模型。SafeSteer 提出，由于安全特征在输出分布中天然稀疏，对齐应进行局部修改而非全局权衡。该方法通过激活引导构建安全教师模型，并开发安全令牌选择算法，在训练中仅对这些令牌施加反向 KL 惩罚，从而保留通用能力。实验表明，SafeSteer 在七个安全基准上取得强安全性能，同时在五个通用能力基准上仅轻微下降，且仅需 100 个有害样本，无需任何通用数据，对齐成本降低超过 99%。

论文安全对齐策略蒸馏 LLM 激活引导对齐税

推荐理由：SafeSteer 用极低成本（100 个样本）解决了安全对齐损害通用能力的痛点，做 LLM 安全或对齐的团队可以直接参考其局部化蒸馏方法，大幅减少数据依赖。

原文

5月20日

10:38

arXiv cs.AI@Isaac David, Arthur Gervais

精选

该研究通过构建包含30个本地漏洞分析任务的轨迹基准，比较了Gemma 4 31B、Gemma 4 26B A4B、Qwen2.5-Coder 7B和Llama 3.1 8B等模型及其未审查/去对齐变体在自主安全智能体场景下的表现。结果显示，Gemma模型的去对齐版本在安全任务上成功率显著提升（31B从0.7%升至14.0%，26B从0.0%升至10.7%），且拒绝率、抑制动作率和危险动作率均为0。但非Gemma模型未呈现一致的去对齐增益，Qwen2.5-Coder去对齐版本成功率反而下降（2.0% vs 5.3%），去对齐的Llama变体则无法通过工具协议。研究强调，安全对齐效果应在系统层面测量，区分拒绝率、不安全动作、工具可靠性和证据基础，而非仅依赖拒绝率。

论文安全智能体安全对齐 Gemma 4 Qwen2.5-Coder Llama 3.1

推荐理由：安全智能体开发者需要了解：去对齐模型在漏洞分析任务上可能提升成功率，但效果因模型而异，且硬核漏洞验证任务仍未解决。建议点开查看具体轨迹数据和任务分类，避免盲目采用去对齐策略。

原文

5月19日

10:14

arXiv cs.AI@Max Zhang, Ameen Patel, Sang T. Truong, Sanmi Koyejo

精选

该论文发现大型语言模型在非英语语言中安全性能下降，但传统评估指标（如越狱成功率）混淆了多种因素。研究者提出多组项目反应理论（IRT）框架，将安全退化分解为语言无关的鲁棒性、提示固有难度、全局语言处理难度和跨语言安全差距四个因素。通过对61个模型配置在10种语言上的190万条数据评估，发现安全机制主要是单维的，且低资源语言并非总是最脆弱——22个模型在英语中反而更易受攻击。低资源语言产生更多不确定响应，而高跨语言安全差距的提示集中在物理伤害类别（如盗窃和武器）。该框架在预测安全拒绝时达到AUC=0.940，优于简单基线，为更公平的跨语言安全评估和数据集改进提供了工具。

论文安全对齐跨语言 IRT框架评估方法大语言模型

推荐理由：这篇论文揭示了多语言安全评估的盲区——低资源语言不一定是安全最薄弱环节，做AI安全对齐的团队值得细看，能帮你避开传统指标误导，精准定位跨语言安全漏洞。

原文