全部 AI 动态 · AI 热点

6月26日

09:51

arXiv cs.AI@Ryan Fetterman

论文研究LLM微调安全分类器时产生的逃避漏洞，发现标准评估无法检测。以Foundation-Sec-8B-Instruct及其基础模型Llama-3.1-8B-Instruct为对象，在PowerShell分类任务上测试。通过因果干预定位分类电路继承自Llama的后期注意力路径，微调浓缩并语义专化此结构，但引入了对PowerShell别名替换（如iwr）、命令重建（Invoke-Expression）、字符串构造、执行间接和大小写变异等转换敏感的漏洞。三种逃避基准显示Foundation-Sec在iwr替换、Invoke-Expression重建和大小写变异的Invoke-Expression/IEX变体上失败，而Llama未受影响。

论文 Foundation-Sec-8B-Instruct Llama-3.1-8B-Instruct AI安全微调逃避攻击

推荐理由：这篇论文揭示了一个反直觉的发现：给模型做安全微调反而可能暗藏更多绕过后门。它用具体的PowerShell分类实验，告诉你继承的电路在微调后变得脆弱，适合关注AI安全或模型微调的朋友。

原文

6月25日

11:00

arXiv cs.AI@Tânia Carvalho, Maxime Cordy

本文发现表格基础模型（Tabular Foundation Models）在推理时使用的上下文示例（context examples）通过注意力机制会泄露隐私。研究者提出AMIA（Attention-based Membership Inference Attack），一种无需影子模型的攻击方法，利用注意力模式实现平均7.7%的增益，尤其在低假阳性区域表现突出。为防御该风险，他们提出基于k-匿名原则的推理时防御，减少上下文键表示的唯一性，将AMIA的成员推理成功率平均降低50%，对置信度攻击降低25%，仅导致3.9%的性能下降。此外，实验表明微调会增加隐私风险，微调后置信度上升的样本更易受攻击。

论文 Tabular Foundation Models AMIA Membership Inference Attack AI安全微调

推荐理由：这篇论文发现表格模型用上下文示例做推理时会泄露隐私，还提出了一个很有效的攻击和防御方法，干活不花哨。

原文

6月24日

12:10

arXiv cs.AI@Ahmad Pouramini, Hesham Faili

该论文提出MTO框架，在编码器-解码器预训练语言模型上匹配任务与预训练目标。将微调模板与目标对齐后，在少样本设置下性能提升超过120%，并超越相关研究。在全数据集场景中也优于基线。框架还扩展至提示调优，提供软提示工程与优化的指导。

论文 MTO框架微调提示调优编码器-解码器少样本学习

推荐理由：这篇论文教你怎么给不同任务选对预训练目标，少样本下性能直接翻倍，比传统方法强一大截。

原文

6月18日

10:57

arXiv cs.AI@Ikram Belmadani, Oumaima El Khettari, Carlos Ramisch, Frederic Bechet, Richard Dufour, Benoit Favre

该研究以法语医疗问答为案例，比较了持续预训练（CPT）、监督微调（SFT）及其组合在Llama 2、Mistral、Bloom三个模型家族、7B-70B多种规模和三种初始化类型上的效果。对于多项选择问答（MCQA），CPT+SFT通常得分最高，但相对于单独SFT的提升很小且常不显著，SFT成为强且成本效益高的默认选择。对于开放问答（OEQA），CPT一致提升基于重叠的指标（如BLEU、ROUGE），而SFT常降低生成质量；指令微调和CPT+SFT在LLM评估中更受偏好。跨语言实验显示，法语适应可有效迁移到英语基准（如MedQA）。

论文 LLM 医疗领域领域适应法语问答微调

推荐理由：这篇论文用扎实的数据告诉你，在医疗领域微调模型时SFT性价比最高，CPT对开放问答有帮助但别盲目上全套，省钱又省力。

原文

6月17日

10:17

arXiv cs.LG@SongEun Kim, Seungyoo Lee, Edwin Fong, Hyungi Lee, Juho Lee

论文发现LLM在多项选择问答中早期存在信念漂移，违背鞅性质。通过提出的提示预测重采样（PPR）方法，模型在多次重采样后信念自稳定并收敛。基于此，研究者进一步提出种子答案提示策略和自一致性损失微调方法。在多项选择QA基准测试中，这些方法显著减少信念漂移并提高预测一致性，且不牺牲准确性。

论文 LLM 信念稳定性 PPR 鞅性质微调

推荐理由：这篇论文发现了LLM回答重复问题时信念会自己稳定，还给了两种让模型更一致的方法，适合关注推理可靠性的读者。

原文

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

6月12日