AITP
精选全部 AI 动态AI 日报Agent 接入关于更新日志信源提报反馈
登录 / 注册
AITOP
全部 AI 动态
AI 相关资讯全量信息流
全部博客资讯推文论文
全部模型产品行业论文技巧
标签:安全对齐×
6月25日
10:43
10:43arXiv cs.LG@Seth Dobrin, Łukasz Chmiel
该论文提出Unfireable Safety Kernel,一种执行时AI对齐机制,满足四个属性:进程隔离、结构唯一路径预执行、请求和系统级故障关闭、外部可验证签名证据。Rust参考实现通过Z3定理证明和Kani模型检查(4/4 harnesses)机器验证了故障关闭不变性。在可逃逸AI系统上测试,面对逃逸攻击者,1000次自我修改中所有704次对安全核心的尝试被拒绝,无逃逸;6240次授权往返无成功绕过。相比3个声称控制智能体平面的当代系统,该内核使智能体失去控制选项。
论文Unfireable Safety KernelAI Agent安全对齐形式验证Rust

推荐理由:这篇论文用Rust和形式化验证搞了个安全内核,1000次自修改加6240次授权测试都拦住了逃逸,比那些吹控制智能体的系统实在多了。
原文
6月19日
11:06
11:06arXiv cs.LG@Sihui Dai, Mann Patel
该论文通过混合良性合规示范(无害请求、有用回复)与有害合规示范(有害请求、有用回复),测试了三种关于示范组合如何导致有害合规的假设。在四个模型中,良性示范与有害示范不可互换:良性示范可能减少或增加有害合规,取决于模型。研究发现偏好优化是关键训练阶段,可防止良性示范增加有害合规;示范排序存在强烈的近因偏差;模型在拒绝与上下文学习交互时表现不同。
论文LLMjailbreakdemonstrationin-context learning安全对齐

推荐理由:这篇论文解释了为什么不同的合规示范会以不同方式影响模型,帮你理解LLM的jailbreak机制,不只是实证而是分析原理。
原文
6月17日
10:18
10:18arXiv cs.LG@Ning Ni, Yingjie Lao
AnchorKV是一种即插即用的KV缓存压缩方法,通过构建离线安全锚点来偏置token保留分数,使其远离有害提示对应的键空间方向。该方法采用差异均值表征工程技术,在逐层键投影空间中提取拒绝方向,并引入软惩罚token选择规则。在保持压缩效率的同时,AnchorKV能显著提升LLM的安全对齐能力,抵御越狱攻击。实验表明,在适度牺牲少量性能的情况下,该方法可有效降低有害输出率。
AI模型AnchorKVKV缓存压缩越狱攻击安全对齐

推荐理由:想压缩KV缓存又怕模型不安全?AnchorKV用软惩罚巧妙拒绝有害token,既省内存又防越狱,适合部署场景。
原文
6月16日
20:46
AITOP6月16日 20:46
600亿美元买下Cursor,xAI终于拿到了编程工具,但真正值得跟踪的或许不是AI600亿美元买下Cursor,xAI终于拿到了编程工具,但真正值得跟踪的或许不是AI
6月12日
12:57
AITOP6月12日 12:57
Claude代码里藏了个20260612,18个月后的AI记忆革命已经开始倒计时
6月11日
15:28
AITOP6月11日 15:28
1107 vs 303:谷歌悄悄开源了一个“拆打字机”的模型,把大模型速度翻了4倍
15:23
AITOP6月11日 15:23
DiffusionGemma颠覆文本生成?自回归模型的“统治”要结束了
15:07
AITOP6月11日 15:07
每秒1107个token,Google开源的扩散模型为什么能改变本地推理格局?
10:11
10:11arXiv cs.LG@Chirag Chawla, Pratinav Seth, Vinay Kumar Sankarapu
精选
ALIGNBEAM 是一种无需训练的推理时安全对齐方法,解决了领域微调导致大语言模型安全性下降的问题。现有方法要求安全锚点模型和目标模型共享词汇表,但 ALIGNBEAM 通过逐 token 翻译锚点 logits 到目标模型词汇表,并利用小型 LLM 法官选择最安全的候选续写,突破了这一限制。该方法不改变任何模型权重,可在部署时调整安全-效用权衡。在跨词汇表和同词汇表评估中,ALIGNBEAM 显著提升了对抗性基准的拒绝率,同时保持任务准确性和推理开销在实用范围内。结果表明,安全对齐可以在推理时在不同模型家族之间转移,无需修改任何模型权重。
论文安全对齐推理时防御跨词汇表LLMALIGNBEAM

推荐理由:做模型安全对齐的团队终于有了跨家族迁移方案——ALIGNBEAM 无需训练即可在推理时转移安全能力,适合需要部署不同系列模型但担心安全退化的开发者直接尝试。
原文
6月10日
09:40
09:40SuperTechFans(博客/媒体)
88°
Anthropic推出两款新模型:Fable 5(安全版)和Mythos 5(无安全限制版)。Fable 5在软件工程、知识工作、视觉识别等领域达到最先进水平,可自主完成复杂任务,如一天内完成Stripe代码库迁移(原需团队两个月)。Mythos 5面向网络安全,在药物设计、分子生物学等领域表现超越人类专家。两款模型定价均为每百万输入令牌10美元、输出令牌50美元,比预览版低一半以上。但Fable 5的安全措施过于激进,误判大量正常内容,引发用户不满。
AI模型AnthropicFable 5Mythos 5推理模型安全对齐

推荐理由:Anthropic新模型价格腰斩且能力大幅提升,做复杂自动化或安全研究的团队值得关注;但安全版误判问题严重,实际使用前建议先测试边界。
原文
6月9日
12:41
12:41arXiv cs.AI@Blake Bullwinkel, Eugenia Kim, Amanda Minnich, Mark Russinovich
精选
本文提出AdvGRPO框架,解决了GRPO在攻防协同训练中不稳定的问题。通过密集多通道奖励和分离优势归一化,使攻击者和防御者模型交替更新,从单轮攻击逐步过渡到多轮闭环攻击。实验表明,该方法能生成高效且可迁移的攻击,协同训练的防御者在安全基准上优于基线。这项工作为语言模型的安全对齐提供了新的自适应红队方法。
论文红队测试GRPO攻防协同安全对齐强化学习

推荐理由:做AI安全对齐的团队终于有了一个稳定的GRPO攻防协同训练方案,能同时提升攻击发现能力和防御鲁棒性,建议做红队测试的开发者直接参考。
原文
6月2日
12:01
12:01arXiv cs.AI@Hao Li, Jingkun An, Zijun Song, Pengyu Zhu, Rui Li, Hao Wang, Wendi Feng, Yesheng Liu, Lijun Li, Jin-Ge Yao, Lei Sha
精选
大型语言模型(LLM)与人类价值观对齐时,往往会损害通用能力,即“对齐税”。现有方法通过平衡双重目标来缓解,但依赖大量通用数据或辅助奖励模型。SafeSteer 提出,由于安全特征在输出分布中天然稀疏,对齐应进行局部修改而非全局权衡。该方法通过激活引导构建安全教师模型,并开发安全令牌选择算法,在训练中仅对这些令牌施加反向 KL 惩罚,从而保留通用能力。实验表明,SafeSteer 在七个安全基准上取得强安全性能,同时在五个通用能力基准上仅轻微下降,且仅需 100 个有害样本,无需任何通用数据,对齐成本降低超过 99%。
论文安全对齐策略蒸馏LLM激活引导对齐税

推荐理由:SafeSteer 用极低成本(100 个样本)解决了安全对齐损害通用能力的痛点,做 LLM 安全或对齐的团队可以直接参考其局部化蒸馏方法,大幅减少数据依赖。
原文
5月30日
00:37
00:37AK@_akhaliq
AgentDoG 1.5 是一个专为AI智能体安全与安全性设计的轻量级、可扩展的对齐框架。该框架旨在解决智能体在自主决策时可能出现的偏差和风险,通过简洁的机制实现高效对齐。它支持多种智能体场景,并能在资源受限环境下运行,降低了安全部署的门槛。这一更新提升了框架的实用性和鲁棒性,为AI智能体的实际应用提供了更可靠的安全保障。
AI产品智能体安全对齐AgentDoG轻量级框架AI安全

推荐理由:做AI智能体部署的团队终于有了一个轻量级的安全对齐方案——AgentDoG 1.5 解决了智能体自主决策中的安全痛点,资源受限环境也能用,建议关注智能体安全的开发者点开看看。
原文
5月20日
10:38
10:38arXiv cs.AI@Isaac David, Arthur Gervais
精选
该研究通过构建包含30个本地漏洞分析任务的轨迹基准,比较了Gemma 4 31B、Gemma 4 26B A4B、Qwen2.5-Coder 7B和Llama 3.1 8B等模型及其未审查/去对齐变体在自主安全智能体场景下的表现。结果显示,Gemma模型的去对齐版本在安全任务上成功率显著提升(31B从0.7%升至14.0%,26B从0.0%升至10.7%),且拒绝率、抑制动作率和危险动作率均为0。但非Gemma模型未呈现一致的去对齐增益,Qwen2.5-Coder去对齐版本成功率反而下降(2.0% vs 5.3%),去对齐的Llama变体则无法通过工具协议。研究强调,安全对齐效果应在系统层面测量,区分拒绝率、不安全动作、工具可靠性和证据基础,而非仅依赖拒绝率。
论文安全智能体安全对齐Gemma 4Qwen2.5-CoderLlama 3.1

推荐理由:安全智能体开发者需要了解:去对齐模型在漏洞分析任务上可能提升成功率,但效果因模型而异,且硬核漏洞验证任务仍未解决。建议点开查看具体轨迹数据和任务分类,避免盲目采用去对齐策略。
原文
5月19日
10:14
10:14arXiv cs.AI@Max Zhang, Ameen Patel, Sang T. Truong, Sanmi Koyejo
精选
该论文发现大型语言模型在非英语语言中安全性能下降,但传统评估指标(如越狱成功率)混淆了多种因素。研究者提出多组项目反应理论(IRT)框架,将安全退化分解为语言无关的鲁棒性、提示固有难度、全局语言处理难度和跨语言安全差距四个因素。通过对61个模型配置在10种语言上的190万条数据评估,发现安全机制主要是单维的,且低资源语言并非总是最脆弱——22个模型在英语中反而更易受攻击。低资源语言产生更多不确定响应,而高跨语言安全差距的提示集中在物理伤害类别(如盗窃和武器)。该框架在预测安全拒绝时达到AUC=0.940,优于简单基线,为更公平的跨语言安全评估和数据集改进提供了工具。
论文安全对齐跨语言IRT框架评估方法大语言模型

推荐理由:这篇论文揭示了多语言安全评估的盲区——低资源语言不一定是安全最薄弱环节,做AI安全对齐的团队值得细看,能帮你避开传统指标误导,精准定位跨语言安全漏洞。
原文
5月14日
21:29
21:29AK@_akhaliq
精选
一项新研究证明,仅通过修改大型语言模型中的一个神经元就能绕过其安全对齐机制。该发现揭示了当前对齐方法存在严重漏洞。在多个开源模型上验证后,修改单个神经元后模型生成有害内容的概率显著提升。论文分析了该神经元的激活模式与安全决策的关联。
论文LLM安全对齐神经元AI安全

推荐理由:改一个神经元就破防
原文
5月13日
21:35
21:35Anthropic: Transformer Circuits(资讯)
Transformer Circuits 团队发布了一篇关于使用交叉编码器(crosscoders)进行模型差异分析(model diffing)的初步研究笔记。该方法通过训练一个共享的稀疏自编码器来比较两个不同模型的内部表示,从而识别出它们在特征层面的差异。这项工作为理解模型训练过程中的变化、模型合并以及安全对齐提供了新的分析工具。目前该研究仍处于早期阶段,但展示了在可解释性领域的一种实用方法。
论文可解释性交叉编码器模型差异分析Transformer Circuits安全对齐

推荐理由:对于从事 AI 可解释性、模型对齐或安全研究的团队,这篇笔记提供了一种直接比较模型内部表示的新工具,值得关注其后续发展。
原文
精选全部日报登录