AITP
精选全部 AI 动态AI 日报Agent 接入关于更新日志信源提报反馈
登录 / 注册
AITOP
全部 AI 动态
AI 相关资讯全量信息流
全部博客资讯推文论文
全部模型产品行业论文技巧
标签:安全对齐×
6月25日
10:43
10:43arXiv cs.LG@Seth Dobrin, Łukasz Chmiel
该论文提出Unfireable Safety Kernel,一种执行时AI对齐机制,满足四个属性:进程隔离、结构唯一路径预执行、请求和系统级故障关闭、外部可验证签名证据。Rust参考实现通过Z3定理证明和Kani模型检查(4/4 harnesses)机器验证了故障关闭不变性。在可逃逸AI系统上测试,面对逃逸攻击者,1000次自我修改中所有704次对安全核心的尝试被拒绝,无逃逸;6240次授权往返无成功绕过。相比3个声称控制智能体平面的当代系统,该内核使智能体失去控制选项。
论文Unfireable Safety KernelAI Agent安全对齐形式验证Rust

推荐理由:这篇论文用Rust和形式化验证搞了个安全内核,1000次自修改加6240次授权测试都拦住了逃逸,比那些吹控制智能体的系统实在多了。
原文
6月19日
11:06
11:06arXiv cs.LG@Sihui Dai, Mann Patel
该论文通过混合良性合规示范(无害请求、有用回复)与有害合规示范(有害请求、有用回复),测试了三种关于示范组合如何导致有害合规的假设。在四个模型中,良性示范与有害示范不可互换:良性示范可能减少或增加有害合规,取决于模型。研究发现偏好优化是关键训练阶段,可防止良性示范增加有害合规;示范排序存在强烈的近因偏差;模型在拒绝与上下文学习交互时表现不同。
论文LLMjailbreakdemonstrationin-context learning安全对齐

推荐理由:这篇论文解释了为什么不同的合规示范会以不同方式影响模型,帮你理解LLM的jailbreak机制,不只是实证而是分析原理。
原文
6月17日
10:18
10:18arXiv cs.LG@Ning Ni, Yingjie Lao
AnchorKV是一种即插即用的KV缓存压缩方法,通过构建离线安全锚点来偏置token保留分数,使其远离有害提示对应的键空间方向。该方法采用差异均值表征工程技术,在逐层键投影空间中提取拒绝方向,并引入软惩罚token选择规则。在保持压缩效率的同时,AnchorKV能显著提升LLM的安全对齐能力,抵御越狱攻击。实验表明,在适度牺牲少量性能的情况下,该方法可有效降低有害输出率。
AI模型AnchorKVKV缓存压缩越狱攻击安全对齐

推荐理由:想压缩KV缓存又怕模型不安全?AnchorKV用软惩罚巧妙拒绝有害token,既省内存又防越狱,适合部署场景。
原文
6月16日
20:46
AITOP6月16日 20:46
600亿美元买下Cursor,xAI终于拿到了编程工具,但真正值得跟踪的或许不是AI600亿美元买下Cursor,xAI终于拿到了编程工具,但真正值得跟踪的或许不是AI
6月12日
12:57
AITOP6月12日 12:57
Claude代码里藏了个20260612,18个月后的AI记忆革命已经开始倒计时
6月11日
15:28
AITOP6月11日 15:28
1107 vs 303:谷歌悄悄开源了一个“拆打字机”的模型,把大模型速度翻了4倍
15:23
AITOP6月11日 15:23
DiffusionGemma颠覆文本生成?自回归模型的“统治”要结束了
15:07
AITOP6月11日 15:07
每秒1107个token,Google开源的扩散模型为什么能改变本地推理格局?
10:11
10:11arXiv cs.LG@Chirag Chawla, Pratinav Seth, Vinay Kumar Sankarapu
精选
ALIGNBEAM 是一种无需训练的推理时安全对齐方法,解决了领域微调导致大语言模型安全性下降的问题。现有方法要求安全锚点模型和目标模型共享词汇表,但 ALIGNBEAM 通过逐 token 翻译锚点 logits 到目标模型词汇表,并利用小型 LLM 法官选择最安全的候选续写,突破了这一限制。该方法不改变任何模型权重,可在部署时调整安全-效用权衡。在跨词汇表和同词汇表评估中,ALIGNBEAM 显著提升了对抗性基准的拒绝率,同时保持任务准确性和推理开销在实用范围内。结果表明,安全对齐可以在推理时在不同模型家族之间转移,无需修改任何模型权重。
论文安全对齐推理时防御跨词汇表LLMALIGNBEAM

推荐理由:做模型安全对齐的团队终于有了跨家族迁移方案——ALIGNBEAM 无需训练即可在推理时转移安全能力,适合需要部署不同系列模型但担心安全退化的开发者直接尝试。
原文
6月9日
12:41
12:41arXiv cs.AI@Blake Bullwinkel, Eugenia Kim, Amanda Minnich, Mark Russinovich
精选
本文提出AdvGRPO框架,解决了GRPO在攻防协同训练中不稳定的问题。通过密集多通道奖励和分离优势归一化,使攻击者和防御者模型交替更新,从单轮攻击逐步过渡到多轮闭环攻击。实验表明,该方法能生成高效且可迁移的攻击,协同训练的防御者在安全基准上优于基线。这项工作为语言模型的安全对齐提供了新的自适应红队方法。
论文红队测试GRPO攻防协同安全对齐强化学习

推荐理由:做AI安全对齐的团队终于有了一个稳定的GRPO攻防协同训练方案,能同时提升攻击发现能力和防御鲁棒性,建议做红队测试的开发者直接参考。
原文
6月2日
12:01
12:01arXiv cs.AI@Hao Li, Jingkun An, Zijun Song, Pengyu Zhu, Rui Li, Hao Wang, Wendi Feng, Yesheng Liu, Lijun Li, Jin-Ge Yao, Lei Sha
精选
大型语言模型(LLM)与人类价值观对齐时,往往会损害通用能力,即“对齐税”。现有方法通过平衡双重目标来缓解,但依赖大量通用数据或辅助奖励模型。SafeSteer 提出,由于安全特征在输出分布中天然稀疏,对齐应进行局部修改而非全局权衡。该方法通过激活引导构建安全教师模型,并开发安全令牌选择算法,在训练中仅对这些令牌施加反向 KL 惩罚,从而保留通用能力。实验表明,SafeSteer 在七个安全基准上取得强安全性能,同时在五个通用能力基准上仅轻微下降,且仅需 100 个有害样本,无需任何通用数据,对齐成本降低超过 99%。
论文安全对齐策略蒸馏LLM激活引导对齐税

推荐理由:SafeSteer 用极低成本(100 个样本)解决了安全对齐损害通用能力的痛点,做 LLM 安全或对齐的团队可以直接参考其局部化蒸馏方法,大幅减少数据依赖。
原文
5月20日
10:38
10:38arXiv cs.AI@Isaac David, Arthur Gervais
精选
该研究通过构建包含30个本地漏洞分析任务的轨迹基准,比较了Gemma 4 31B、Gemma 4 26B A4B、Qwen2.5-Coder 7B和Llama 3.1 8B等模型及其未审查/去对齐变体在自主安全智能体场景下的表现。结果显示,Gemma模型的去对齐版本在安全任务上成功率显著提升(31B从0.7%升至14.0%,26B从0.0%升至10.7%),且拒绝率、抑制动作率和危险动作率均为0。但非Gemma模型未呈现一致的去对齐增益,Qwen2.5-Coder去对齐版本成功率反而下降(2.0% vs 5.3%),去对齐的Llama变体则无法通过工具协议。研究强调,安全对齐效果应在系统层面测量,区分拒绝率、不安全动作、工具可靠性和证据基础,而非仅依赖拒绝率。
论文安全智能体安全对齐Gemma 4Qwen2.5-CoderLlama 3.1

推荐理由:安全智能体开发者需要了解:去对齐模型在漏洞分析任务上可能提升成功率,但效果因模型而异,且硬核漏洞验证任务仍未解决。建议点开查看具体轨迹数据和任务分类,避免盲目采用去对齐策略。
原文
5月19日
10:14
10:14arXiv cs.AI@Max Zhang, Ameen Patel, Sang T. Truong, Sanmi Koyejo
精选
该论文发现大型语言模型在非英语语言中安全性能下降,但传统评估指标(如越狱成功率)混淆了多种因素。研究者提出多组项目反应理论(IRT)框架,将安全退化分解为语言无关的鲁棒性、提示固有难度、全局语言处理难度和跨语言安全差距四个因素。通过对61个模型配置在10种语言上的190万条数据评估,发现安全机制主要是单维的,且低资源语言并非总是最脆弱——22个模型在英语中反而更易受攻击。低资源语言产生更多不确定响应,而高跨语言安全差距的提示集中在物理伤害类别(如盗窃和武器)。该框架在预测安全拒绝时达到AUC=0.940,优于简单基线,为更公平的跨语言安全评估和数据集改进提供了工具。
论文安全对齐跨语言IRT框架评估方法大语言模型

推荐理由:这篇论文揭示了多语言安全评估的盲区——低资源语言不一定是安全最薄弱环节,做AI安全对齐的团队值得细看,能帮你避开传统指标误导,精准定位跨语言安全漏洞。
原文
精选全部日报登录