精选 AI 资讯 · AI 热点

6月17日

04:13

04:13

OpenAI@OpenAI

精选

OpenAI提出一种新研究方法，通过模拟部署使用近期去标识化用户请求（涉及23,341次浏览）来预测模型行为。该方法在发布前评估候选模型响应，相关推文获得44条评论、27次转发和375个赞。研究旨在减少模型在实际使用中的意外行为。

论文 OpenAI 模拟部署模型安全行为预测

推荐理由：OpenAI搞了个新方法，用真实用户请求模拟部署，提前预测模型行为，比直接上线更稳妥。

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

6月1日

00:09

AITOP6月1日 00:09

OpenAI 发起“Codex for Open Source”：免费赠送 6 个月 Pro 订阅，开源维护者能否迎来 AI 变革？

5月29日

08:02

AITOP5月29日 08:02

Opus 4.8发布：编程助手的“静默时刻”，是解放开发者，还是新门槛？🔥Anthropic 把 AI 编程的“确认键”彻底删掉了！Claude Code 搭载全新 Opus 4.8 模型，长时间任务不跑偏、不废话、不中断，像一个资深工程师一样默默干活，从功能开发到漏洞清扫全包圆，你在旁边喝茶等结果就行。过去 AI 写代码三步一问“这样可以吗”，现在它直接交完整交付物……自主编程的最后一层窗户纸，被捅破了。做自动化开发和代码审查的团队，这个模型建议直接上手，效率差距肉眼可见……

Opus 4.8发布：编程助手的“静默时刻”，是解放开发者，还是新门槛？

5月22日

11:16

11:16

arXiv cs.AI@Youssef Allouah, Mahdi Haghifam, Sanmi Koyejo, Reza Shokri

精选

本文通过最小最大博弈框架研究模型蒸馏攻击中的部署权衡：模型输出越有用，越容易被模仿。作者提出自适应评估规则，学生可重加权高价值样本；同时设计教师端防御模板，抑制最易被蒸馏的输出。基于示例价值的廉价代理，提出Product-of-Experts (PoE) 防御，仅需前向传播即可结合教师与代理学生。实验表明，自适应评估揭示被动与自适应攻击的巨大差距：在GSM8K和MATH上，自适应学生恢复的能力远超被动评估。PoE在成本远低于现有防御的情况下，鲁棒性差距显著缩小，且保留更高质量的推理轨迹。代码已开源。

论文蒸馏攻击模型安全自适应攻击防御机制博弈论

推荐理由：这篇论文戳破了蒸馏防御的假象——被动评估下的鲁棒性在自适应攻击面前不堪一击。做模型安全或部署的团队，建议用文中的自适应评估框架重新审视你的防御方案。

5月21日

09:46

09:46

arXiv cs.AI@Samuele Pasini, Jinhan Kim, Paolo Tonella

精选

研究者提出MIST方法，通过分析深度神经网络在微调过程中内部表征的谱变化来检测后门攻击。该方法将良性模型更新建模为预激活谱的回归问题，通过检测谱偏差识别恶意更新。在四个数据集和八种后门攻击的实验中，MIST在单次更新后即达到最先进的检测准确率，且无需了解中毒数据或触发器。该方法在多步良性演化下仍保持有效，性能退化可控。这表明谱演化信号为检测恶意模型更新提供了稳定且假设较少的方案。

论文后门检测谱回归分析模型安全微调 DNN

推荐理由：安全团队和AI部署者终于有了一个无需先验知识就能检测模型后门的方法——MIST通过分析微调时的谱变化，在单次更新后即可识别恶意植入，比现有方法更早更准。做模型安全审计的开发者值得关注。

5月15日

11:17

11:17

arXiv cs.LG@Saisab Sadhu, Pratinav Seth, Vinay Kumar Sankarapu

精选73°

现有机器遗忘评估仅在全精度模型上进行，但实际部署的语言模型都会经过量化。研究发现，4-bit量化可以逆转梯度下降法的遗忘效果，而能抵抗量化的方法又几乎不改变模型。MANSU通过因果电路归因定位最小遗忘子图，结合零空间投影和参数幅度下限，首次实现了遗忘效果在量化后不反弹。该方法还提出了电路归因散度（CAD）作为新的验证指标，能区分结构擦除与行为抑制。实验表明，MANSU在多个模型和基准上同时满足遗忘、保留、抗量化和结构擦除四个目标。

论文机器遗忘量化因果归因模型安全 MANSU

推荐理由：量化会悄悄恢复你辛苦抹掉的知识——MANSU解决了这个部署中的致命漏洞，做模型安全和对齐的团队值得关注这个新方法。