09:51arXiv cs.AI@Ryan Fetterman论文研究LLM微调安全分类器时产生的逃避漏洞,发现标准评估无法检测。以Foundation-Sec-8B-Instruct及其基础模型Llama-3.1-8B-Instruct为对象,在PowerShell分类任务上测试。通过因果干预定位分类电路继承自Llama的后期注意力路径,微调浓缩并语义专化此结构,但引入了对PowerShell别名替换(如iwr)、命令重建(Invoke-Expression)、字符串构造、执行间接和大小写变异等转换敏感的漏洞。三种逃避基准显示Foundation-Sec在iwr替换、Invoke-Expression重建和大小写变异的Invoke-Expression/IEX变体上失败,而Llama未受影响。论文Foundation-Sec-8B-InstructLlama-3.1-8B-InstructAI安全微调逃避攻击推荐理由:这篇论文揭示了一个反直觉的发现:给模型做安全微调反而可能暗藏更多绕过后门。它用具体的PowerShell分类实验,告诉你继承的电路在微调后变得脆弱,适合关注AI安全或模型微调的朋友。原文
11:00arXiv cs.AI@Tânia Carvalho, Maxime Cordy本文发现表格基础模型(Tabular Foundation Models)在推理时使用的上下文示例(context examples)通过注意力机制会泄露隐私。研究者提出AMIA(Attention-based Membership Inference Attack),一种无需影子模型的攻击方法,利用注意力模式实现平均7.7%的增益,尤其在低假阳性区域表现突出。为防御该风险,他们提出基于k-匿名原则的推理时防御,减少上下文键表示的唯一性,将AMIA的成员推理成功率平均降低50%,对置信度攻击降低25%,仅导致3.9%的性能下降。此外,实验表明微调会增加隐私风险,微调后置信度上升的样本更易受攻击。论文Tabular Foundation ModelsAMIAMembership Inference AttackAI安全微调推荐理由:这篇论文发现表格模型用上下文示例做推理时会泄露隐私,还提出了一个很有效的攻击和防御方法,干活不花哨。原文
12:10arXiv cs.AI@Ahmad Pouramini, Hesham Faili该论文提出MTO框架,在编码器-解码器预训练语言模型上匹配任务与预训练目标。将微调模板与目标对齐后,在少样本设置下性能提升超过120%,并超越相关研究。在全数据集场景中也优于基线。框架还扩展至提示调优,提供软提示工程与优化的指导。论文MTO框架微调提示调优编码器-解码器少样本学习推荐理由:这篇论文教你怎么给不同任务选对预训练目标,少样本下性能直接翻倍,比传统方法强一大截。原文
10:57arXiv cs.AI@Ikram Belmadani, Oumaima El Khettari, Carlos Ramisch, Frederic Bechet, Richard Dufour, Benoit Favre该研究以法语医疗问答为案例,比较了持续预训练(CPT)、监督微调(SFT)及其组合在Llama 2、Mistral、Bloom三个模型家族、7B-70B多种规模和三种初始化类型上的效果。对于多项选择问答(MCQA),CPT+SFT通常得分最高,但相对于单独SFT的提升很小且常不显著,SFT成为强且成本效益高的默认选择。对于开放问答(OEQA),CPT一致提升基于重叠的指标(如BLEU、ROUGE),而SFT常降低生成质量;指令微调和CPT+SFT在LLM评估中更受偏好。跨语言实验显示,法语适应可有效迁移到英语基准(如MedQA)。论文LLM医疗领域领域适应法语问答微调推荐理由:这篇论文用扎实的数据告诉你,在医疗领域微调模型时SFT性价比最高,CPT对开放问答有帮助但别盲目上全套,省钱又省力。原文
10:17arXiv cs.LG@SongEun Kim, Seungyoo Lee, Edwin Fong, Hyungi Lee, Juho Lee论文发现LLM在多项选择问答中早期存在信念漂移,违背鞅性质。通过提出的提示预测重采样(PPR)方法,模型在多次重采样后信念自稳定并收敛。基于此,研究者进一步提出种子答案提示策略和自一致性损失微调方法。在多项选择QA基准测试中,这些方法显著减少信念漂移并提高预测一致性,且不牺牲准确性。论文LLM信念稳定性PPR鞅性质微调推荐理由:这篇论文发现了LLM回答重复问题时信念会自己稳定,还给了两种让模型更一致的方法,适合关注推理可靠性的读者。原文
09:07arXiv: DeepSeek@Wu Yuerong, Mingni Luo精选该研究将 DeepSeek-R1-8B 与 LoRA 和 NEFTune 结合,用于金融命名实体识别。通过将 1693 条标注句子转换为指令-输入-输出三元组,并插入轻量 LoRA 矩阵及在训练时添加均匀噪声,模型在七类实体上达到 0.912 的 micro-F1,超越 Llama3-8B、Qwen3-8B 等基线。这证明低成本微调开源模型即可在专业领域取得优异效果。论文DeepSeek-R1-8BLoRANEFTune金融 NER微调推荐理由:金融 NER 是结构化非结构化数据的关键,做金融 NLP 的团队可以直接用这套方法低成本提升实体识别精度,值得一试。原文
12:14arXiv cs.LG@Ziwen Xu, Haiwen Hong, Linsong Yu, Benglei Cui, Longtao Huang, Hui Xue, Ningyu Zhang该论文系统研究了 LoRA 在 LLM 微调中的参数记忆容量与动态机制,提出了 Parametric Memory Law——一个将损失减少与有效参数和序列长度联系起来的幂律关系。在 token 级别,研究发现预测概率 p > 0.5 是贪心解码下逐字回忆的充分条件,存在确定性相变。基于此,作者提出 MemFT 阈值引导优化策略,动态分配训练预算给低于阈值的 token,实验表明能提升记忆保真度和效率。这项工作首次从定量角度揭示了 LoRA 的记忆极限,对持续学习和知识更新有重要指导意义。论文LoRA参数记忆微调持续学习幂律推荐理由:做 LLM 微调或持续学习的团队,终于有了量化记忆容量的理论工具——MemFT 能直接帮你优化训练预算分配,建议做 LoRA 相关工作的点开看看。原文
12:00arXiv cs.LG@Zelin Li, Caiwen Ding精选72°研究发现,大语言模型的零阶(ZO)微调本质上是推理密集型负载,而非传统训练。现有实现将ZO算法运行在训练循环中,导致工作负载与运行时的不匹配。研究者通过将ZO微调的重复评分阶段部署在推理运行时(如vLLM)上,在OPT-13B模型上实现了8.13倍加速,且精度几乎无损。该方法在多个模型规模下获得2.34-7.72倍加速,并支持MeZO风格的高秩分解实验。这项工作为将轻量级适配作为推理类负载调度提供了实用路径。论文零阶优化微调推理优化vLLM大语言模型推荐理由:做LLM微调优化的团队终于可以省下GPU时间了——把ZO微调当推理跑,vLLM直接提速8倍,建议做低成本微调的人点开看看实现细节。原文
10:22arXiv cs.LG@Lukas Twist, Helen Yannakoudakis, Jie M. Zhang精选论文揭示了一个关键问题:推理模型在微调时,若使用不含推理痕迹的普通指令-回复数据,会导致“推理痕迹坍塌”——模型虽能给出看似合理的最终答案,但中间推理步骤的结构性有效性大幅下降。研究者提出了一个结构评估框架,将答案正确性与推理痕迹有效性分离,测量有效、空、缺失和截断的推理痕迹。实验发现,标准监督微调会迅速抑制有效推理痕迹,而仅看答案正确率会掩盖这一失败。论文还表明,简单的损失掩码策略可以显著缓解坍塌,无需教师生成的推理痕迹。论文推理模型微调推理痕迹坍塌评估框架损失掩码推荐理由:做推理模型微调的团队必须警惕:只看答案正确率会误判模型能力,这篇论文给出了评估和缓解方案,建议做模型对齐的开发者仔细阅读。原文
09:46arXiv cs.AI@Samuele Pasini, Jinhan Kim, Paolo Tonella精选研究者提出MIST方法,通过分析深度神经网络在微调过程中内部表征的谱变化来检测后门攻击。该方法将良性模型更新建模为预激活谱的回归问题,通过检测谱偏差识别恶意更新。在四个数据集和八种后门攻击的实验中,MIST在单次更新后即达到最先进的检测准确率,且无需了解中毒数据或触发器。该方法在多步良性演化下仍保持有效,性能退化可控。这表明谱演化信号为检测恶意模型更新提供了稳定且假设较少的方案。论文后门检测谱回归分析模型安全微调DNN推荐理由:安全团队和AI部署者终于有了一个无需先验知识就能检测模型后门的方法——MIST通过分析微调时的谱变化,在单次更新后即可识别恶意植入,比现有方法更早更准。做模型安全审计的开发者值得关注。原文
13:26arXiv cs.LG@Harry Mayne, Lev McKinney, Jan Dubiński, Adam Karvonen, James Chua, Owain Evans精选72°研究人员发现一种名为“否定忽视”的现象:当用标注为假的信息(如“Ed Sheeran赢得2024奥运百米金牌”)微调大模型时,模型反而会相信这些假信息为真。实验显示,在Qwen3.5-397B等模型上,微调后对假信息的相信率从2.5%飙升至88.6%,几乎与直接学习真信息的效果(92.4%)相当。即使每个提及假信息的句子前后都加上“这是假的”声明,模型仍会忽略否定。只有当否定直接嵌入句子(如“Ed Sheeran没有赢得金牌”)时,模型才能正确学习。该现象在Kimi K2.5、GPT-4.1等所有测试模型中都存在,并且不仅限于事实,还会影响模型行为——用标注为恶意的对话微调,模型可能学会这些恶意行为。研究认为这反映了模型倾向于将陈述内容视为真的归纳偏差,对AI安全有重要警示。论文否定忽视微调AI安全假信息归纳偏差推荐理由:这个发现戳穿了微调中“加否定声明就能纠正模型”的幻觉,做安全对齐或数据清洗的团队必须警惕——你的训练数据里那些“假新闻”可能正在反向教坏模型。建议所有做微调的人点开看看,避免踩坑。原文