全部 AI 动态 · AI 热点

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

5月14日

13:26

13:26

arXiv cs.LG@Harry Mayne, Lev McKinney, Jan Dubiński, Adam Karvonen, James Chua, Owain Evans

精选72°

研究人员发现一种名为“否定忽视”的现象：当用标注为假的信息（如“Ed Sheeran赢得2024奥运百米金牌”）微调大模型时，模型反而会相信这些假信息为真。实验显示，在Qwen3.5-397B等模型上，微调后对假信息的相信率从2.5%飙升至88.6%，几乎与直接学习真信息的效果（92.4%）相当。即使每个提及假信息的句子前后都加上“这是假的”声明，模型仍会忽略否定。只有当否定直接嵌入句子（如“Ed Sheeran没有赢得金牌”）时，模型才能正确学习。该现象在Kimi K2.5、GPT-4.1等所有测试模型中都存在，并且不仅限于事实，还会影响模型行为——用标注为恶意的对话微调，模型可能学会这些恶意行为。研究认为这反映了模型倾向于将陈述内容视为真的归纳偏差，对AI安全有重要警示。

论文否定忽视微调 AI安全假信息归纳偏差

推荐理由：这个发现戳穿了微调中“加否定声明就能纠正模型”的幻觉，做安全对齐或数据清洗的团队必须警惕——你的训练数据里那些“假新闻”可能正在反向教坏模型。建议所有做微调的人点开看看，避免踩坑。