AITP
精选全部 AI 动态AI 日报Agent 接入关于更新日志信源提报反馈
登录 / 注册
AITOP
精选
过去 24 小时,从 986 条中筛出 58 条
全部模型产品行业论文技巧
标签:安全对齐×
6月11日
15:28
AITOP6月11日 15:28
1107 vs 303:谷歌悄悄开源了一个“拆打字机”的模型,把大模型速度翻了4倍
15:23
AITOP6月11日 15:23
DiffusionGemma颠覆文本生成?自回归模型的“统治”要结束了
15:07
AITOP6月11日 15:07
每秒1107个token,Google开源的扩散模型为什么能改变本地推理格局?
10:11
10:11arXiv cs.LG@Chirag Chawla, Pratinav Seth, Vinay Kumar Sankarapu
精选
ALIGNBEAM 是一种无需训练的推理时安全对齐方法,解决了领域微调导致大语言模型安全性下降的问题。现有方法要求安全锚点模型和目标模型共享词汇表,但 ALIGNBEAM 通过逐 token 翻译锚点 logits 到目标模型词汇表,并利用小型 LLM 法官选择最安全的候选续写,突破了这一限制。该方法不改变任何模型权重,可在部署时调整安全-效用权衡。在跨词汇表和同词汇表评估中,ALIGNBEAM 显著提升了对抗性基准的拒绝率,同时保持任务准确性和推理开销在实用范围内。结果表明,安全对齐可以在推理时在不同模型家族之间转移,无需修改任何模型权重。
论文安全对齐推理时防御跨词汇表LLMALIGNBEAM

推荐理由:做模型安全对齐的团队终于有了跨家族迁移方案——ALIGNBEAM 无需训练即可在推理时转移安全能力,适合需要部署不同系列模型但担心安全退化的开发者直接尝试。
原文
6月9日
12:41
12:41arXiv cs.AI@Blake Bullwinkel, Eugenia Kim, Amanda Minnich, Mark Russinovich
精选
本文提出AdvGRPO框架,解决了GRPO在攻防协同训练中不稳定的问题。通过密集多通道奖励和分离优势归一化,使攻击者和防御者模型交替更新,从单轮攻击逐步过渡到多轮闭环攻击。实验表明,该方法能生成高效且可迁移的攻击,协同训练的防御者在安全基准上优于基线。这项工作为语言模型的安全对齐提供了新的自适应红队方法。
论文红队测试GRPO攻防协同安全对齐强化学习

推荐理由:做AI安全对齐的团队终于有了一个稳定的GRPO攻防协同训练方案,能同时提升攻击发现能力和防御鲁棒性,建议做红队测试的开发者直接参考。
原文
6月2日
12:01
12:01arXiv cs.AI@Hao Li, Jingkun An, Zijun Song, Pengyu Zhu, Rui Li, Hao Wang, Wendi Feng, Yesheng Liu, Lijun Li, Jin-Ge Yao, Lei Sha
精选
大型语言模型(LLM)与人类价值观对齐时,往往会损害通用能力,即“对齐税”。现有方法通过平衡双重目标来缓解,但依赖大量通用数据或辅助奖励模型。SafeSteer 提出,由于安全特征在输出分布中天然稀疏,对齐应进行局部修改而非全局权衡。该方法通过激活引导构建安全教师模型,并开发安全令牌选择算法,在训练中仅对这些令牌施加反向 KL 惩罚,从而保留通用能力。实验表明,SafeSteer 在七个安全基准上取得强安全性能,同时在五个通用能力基准上仅轻微下降,且仅需 100 个有害样本,无需任何通用数据,对齐成本降低超过 99%。
论文安全对齐策略蒸馏LLM激活引导对齐税

推荐理由:SafeSteer 用极低成本(100 个样本)解决了安全对齐损害通用能力的痛点,做 LLM 安全或对齐的团队可以直接参考其局部化蒸馏方法,大幅减少数据依赖。
原文
6月1日
00:09
AITOP6月1日 00:09
OpenAI 发起“Codex for Open Source”:免费赠送 6 个月 Pro 订阅,开源维护者能否迎来 AI 变革?
5月29日
08:02
AITOP5月29日 08:02
Opus 4.8发布:编程助手的“静默时刻”,是解放开发者,还是新门槛?🔥Anthropic 把 AI 编程的“确认键”彻底删掉了!Claude Code 搭载全新 Opus 4.8 模型,长时间任务不跑偏、不废话、不中断,像一个资深工程师一样默默干活,从功能开发到漏洞清扫全包圆,你在旁边喝茶等结果就行。过去 AI 写代码三步一问“这样可以吗”,现在它直接交完整交付物……自主编程的最后一层窗户纸,被捅破了。做自动化开发和代码审查的团队,这个模型建议直接上手,效率差距肉眼可见……Opus 4.8发布:编程助手的“静默时刻”,是解放开发者,还是新门槛?
5月20日
10:38
10:38arXiv cs.AI@Isaac David, Arthur Gervais
精选
该研究通过构建包含30个本地漏洞分析任务的轨迹基准,比较了Gemma 4 31B、Gemma 4 26B A4B、Qwen2.5-Coder 7B和Llama 3.1 8B等模型及其未审查/去对齐变体在自主安全智能体场景下的表现。结果显示,Gemma模型的去对齐版本在安全任务上成功率显著提升(31B从0.7%升至14.0%,26B从0.0%升至10.7%),且拒绝率、抑制动作率和危险动作率均为0。但非Gemma模型未呈现一致的去对齐增益,Qwen2.5-Coder去对齐版本成功率反而下降(2.0% vs 5.3%),去对齐的Llama变体则无法通过工具协议。研究强调,安全对齐效果应在系统层面测量,区分拒绝率、不安全动作、工具可靠性和证据基础,而非仅依赖拒绝率。
论文安全智能体安全对齐Gemma 4Qwen2.5-CoderLlama 3.1

推荐理由:安全智能体开发者需要了解:去对齐模型在漏洞分析任务上可能提升成功率,但效果因模型而异,且硬核漏洞验证任务仍未解决。建议点开查看具体轨迹数据和任务分类,避免盲目采用去对齐策略。
原文
5月19日
10:14
10:14arXiv cs.AI@Max Zhang, Ameen Patel, Sang T. Truong, Sanmi Koyejo
精选
该论文发现大型语言模型在非英语语言中安全性能下降,但传统评估指标(如越狱成功率)混淆了多种因素。研究者提出多组项目反应理论(IRT)框架,将安全退化分解为语言无关的鲁棒性、提示固有难度、全局语言处理难度和跨语言安全差距四个因素。通过对61个模型配置在10种语言上的190万条数据评估,发现安全机制主要是单维的,且低资源语言并非总是最脆弱——22个模型在英语中反而更易受攻击。低资源语言产生更多不确定响应,而高跨语言安全差距的提示集中在物理伤害类别(如盗窃和武器)。该框架在预测安全拒绝时达到AUC=0.940,优于简单基线,为更公平的跨语言安全评估和数据集改进提供了工具。
论文安全对齐跨语言IRT框架评估方法大语言模型

推荐理由:这篇论文揭示了多语言安全评估的盲区——低资源语言不一定是安全最薄弱环节,做AI安全对齐的团队值得细看,能帮你避开传统指标误导,精准定位跨语言安全漏洞。
原文
精选全部日报登录