AITP
精选全部 AI 动态AI 日报Agent 接入关于更新日志信源提报反馈
登录 / 注册
AITOP
全部 AI 动态
AI 相关资讯全量信息流
全部博客资讯推文论文
全部模型产品行业论文技巧
标签:SFT×
6月25日
10:40
10:40arXiv cs.LG@Yupu Hao, Zhuoran Jin, Huanxuan Liao, Kang Liu, Jun Zhao
该论文通过实验发现,多步工具使用强化学习(RL)训练中,模型可出现灾难性崩溃,性能骤降且工具调用结构失效。根本原因是特定控制token概率突增,但基础工具使用能力并未丢失。研究者系统探索了离策略监督、提示引导、错误示例等多种监督信号,并比较了同步与交错训练方案。结果表明,将监督微调(SFT)与RL交错进行可显著提升稳定性,但在格式和内容分布外(OOD)评估中性能下降。该工作揭示了RL失败机理,并展示了多样化监督信号对鲁棒训练的价值。
论文LLM强化学习工具使用SFT监督信号

推荐理由:这篇论文分析了多步工具RL训练容易崩溃的原因,并实验证明交错SFT与RL能有效提升稳定性,对做智能体RL的人很有参考价值。
原文
6月19日
09:53
09:53arXiv cs.LG@Ali Asaria, Tony Salomone, Deep Gandhi
论文使用Qwen2.5-7B-Instruct对比了零样本、仅SFT、仅RAG和SFT+RAG混合四种方法在安大略住宅租赁法条文引用上的效果。混合方法以0.481精确匹配(节+条)取得最高分,且将幻觉降至零。SFT提升了高召回候选集中条款选择的鲁棒性,而仅用bge-small嵌入就超越了更大专用检索模型。扩大训练集未带来提升,0.70目标尚未达到。
论文Qwen2.5-7BRAGSFT零幻觉法律引用

推荐理由:这篇论文用Qwen2.5-7B做了个四路对比,发现微调加检索混合方案在法条引用上精确匹配0.481还零幻觉,比纯微调或纯检索都强,而且用轻量bge-small就够用。
原文
6月18日
09:22
09:22arXiv: DeepSeek@Siddharth Aphale, Kelly Liu
一项研究分析了SFT(监督微调)的过度训练对RLVR(基于强化学习的验证)训练的影响。使用Qwen2.5-Coder-3B和DeepSeek-Coder-6.7B模型,发现SFT深度增加时,预RL的pass@1上升,但GRPO的pass@10从0.806降至0.481(3种子均值,n=20)。预RL熵与GRPO结果正相关(ρ=+0.69)。研究者提出一个两阶段诊断方法,结合预RL熵筛选和早期GRPO熵监控,可标记高风险检查点。简单KL正则化和标签平滑无法挽救已崩溃的检查点。
论文Qwen2.5-Coder-3BDeepSeek-Coder-6.7BSFTRLVR强化学习

推荐理由:这篇论文发现了SFT过训练会搞崩GRPO训练的秘密,还给出了诊断方法来提前止损。做RLHF或强化学习训练的可以看看。
原文
6月16日
20:46
AITOP6月16日 20:46
600亿美元买下Cursor,xAI终于拿到了编程工具,但真正值得跟踪的或许不是AI600亿美元买下Cursor,xAI终于拿到了编程工具,但真正值得跟踪的或许不是AI
10:49
10:49arXiv: DeepSeek@Ke Miao, Jiaxin Li, Hongliang Chen, Yuke Hu, Zhan Qin
论文Safe Trigger提出利用大推理模型(LRM)自身的潜在安全意识进行安全对齐,无需外部人工标注。该方法先使用监督微调(SFT)为不安全查询注入安全标签触发安全分析,对一般查询保持原响应实现自适应;再通过直接偏好优化(DPO)提升安全分析的稳定性。实验显示,DeepSeek-R1-Distill-Llama-8B在有害和越狱基准上的攻击成功率(ASR)平均下降24.65%和36.72%,且通用性能几乎不受影响。
论文Safe TriggerDeepSeek-R1大推理模型AI安全SFT

推荐理由:这篇论文发现LRM自己就能识别风险,用SFT+DPO触发安全分析,让DeepSeek-R1的越狱成功率高降36%,还不用外部数据,挺实用的。
原文
6月12日
12:57
AITOP6月12日 12:57
Claude代码里藏了个20260612,18个月后的AI记忆革命已经开始倒计时
6月11日
15:28
AITOP6月11日 15:28
1107 vs 303:谷歌悄悄开源了一个“拆打字机”的模型,把大模型速度翻了4倍
15:23
AITOP6月11日 15:23
DiffusionGemma颠覆文本生成?自回归模型的“统治”要结束了
15:07
AITOP6月11日 15:07
每秒1107个token,Google开源的扩散模型为什么能改变本地推理格局?
6月1日
10:36
10:36arXiv cs.AI@Qing Wang, Jacob Devasier, Chengkai Li
本文首次系统研究了掩码扩散语言模型(MDLM)在图到文本生成中的解码轨迹,发现MDLM会优先解码实体,然后是关系词和功能词,最后才是结构词,这与自回归模型的线性生成方式不同。研究还发现监督微调(SFT)会破坏这一策略,过早固定结构词导致输出长度固定,引发信息遗漏或幻觉。为此,作者提出了一种无需训练的推理时修改方法——lambda缩放结构解码,将BLEU-4提升9.4分。最后,他们提出了Graph-LLaDA,将图Transformer编码器集成到LLaDA的解码过程中,显式利用关系图结构。跨数据集评估表明,基于LLM和MDLM的方法泛化能力显著优于传统基线。
论文扩散模型图到文本生成解码轨迹Graph-LLaDASFT

推荐理由:这篇论文揭示了扩散模型在图到文本任务中的独特解码机制,做结构化文本生成或知识图谱相关工作的开发者值得关注,尤其是SFT反而有害的发现可能改变你的微调策略。
原文
精选全部日报登录