全部 AI 动态 · AI 热点

6月25日

10:40

10:40

arXiv cs.LG@Yupu Hao, Zhuoran Jin, Huanxuan Liao, Kang Liu, Jun Zhao

该论文通过实验发现，多步工具使用强化学习（RL）训练中，模型可出现灾难性崩溃，性能骤降且工具调用结构失效。根本原因是特定控制token概率突增，但基础工具使用能力并未丢失。研究者系统探索了离策略监督、提示引导、错误示例等多种监督信号，并比较了同步与交错训练方案。结果表明，将监督微调（SFT）与RL交错进行可显著提升稳定性，但在格式和内容分布外（OOD）评估中性能下降。该工作揭示了RL失败机理，并展示了多样化监督信号对鲁棒训练的价值。

论文 LLM 强化学习工具使用 SFT 监督信号

推荐理由：这篇论文分析了多步工具RL训练容易崩溃的原因，并实验证明交错SFT与RL能有效提升稳定性，对做智能体RL的人很有参考价值。

6月19日

09:53

09:53

arXiv cs.LG@Ali Asaria, Tony Salomone, Deep Gandhi

论文使用Qwen2.5-7B-Instruct对比了零样本、仅SFT、仅RAG和SFT+RAG混合四种方法在安大略住宅租赁法条文引用上的效果。混合方法以0.481精确匹配（节+条）取得最高分，且将幻觉降至零。SFT提升了高召回候选集中条款选择的鲁棒性，而仅用bge-small嵌入就超越了更大专用检索模型。扩大训练集未带来提升，0.70目标尚未达到。

论文 Qwen2.5-7B RAG SFT 零幻觉法律引用

推荐理由：这篇论文用Qwen2.5-7B做了个四路对比，发现微调加检索混合方案在法条引用上精确匹配0.481还零幻觉，比纯微调或纯检索都强，而且用轻量bge-small就够用。

6月18日

09:22

09:22

arXiv: DeepSeek@Siddharth Aphale, Kelly Liu

一项研究分析了SFT（监督微调）的过度训练对RLVR（基于强化学习的验证）训练的影响。使用Qwen2.5-Coder-3B和DeepSeek-Coder-6.7B模型，发现SFT深度增加时，预RL的pass@1上升，但GRPO的pass@10从0.806降至0.481（3种子均值，n=20）。预RL熵与GRPO结果正相关（ρ=+0.69）。研究者提出一个两阶段诊断方法，结合预RL熵筛选和早期GRPO熵监控，可标记高风险检查点。简单KL正则化和标签平滑无法挽救已崩溃的检查点。

论文 Qwen2.5-Coder-3B DeepSeek-Coder-6.7B SFT RLVR 强化学习

推荐理由：这篇论文发现了SFT过训练会搞崩GRPO训练的秘密，还给出了诊断方法来提前止损。做RLHF或强化学习训练的可以看看。

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

10:49

10:49

arXiv: DeepSeek@Ke Miao, Jiaxin Li, Hongliang Chen, Yuke Hu, Zhan Qin

论文Safe Trigger提出利用大推理模型(LRM)自身的潜在安全意识进行安全对齐，无需外部人工标注。该方法先使用监督微调(SFT)为不安全查询注入安全标签触发安全分析，对一般查询保持原响应实现自适应；再通过直接偏好优化(DPO)提升安全分析的稳定性。实验显示，DeepSeek-R1-Distill-Llama-8B在有害和越狱基准上的攻击成功率(ASR)平均下降24.65%和36.72%，且通用性能几乎不受影响。

论文 Safe Trigger DeepSeek-R1 大推理模型 AI安全 SFT

推荐理由：这篇论文发现LRM自己就能识别风险，用SFT+DPO触发安全分析，让DeepSeek-R1的越狱成功率高降36%，还不用外部数据，挺实用的。

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

6月1日

10:36

10:36

arXiv cs.AI@Qing Wang, Jacob Devasier, Chengkai Li

本文首次系统研究了掩码扩散语言模型（MDLM）在图到文本生成中的解码轨迹，发现MDLM会优先解码实体，然后是关系词和功能词，最后才是结构词，这与自回归模型的线性生成方式不同。研究还发现监督微调（SFT）会破坏这一策略，过早固定结构词导致输出长度固定，引发信息遗漏或幻觉。为此，作者提出了一种无需训练的推理时修改方法——lambda缩放结构解码，将BLEU-4提升9.4分。最后，他们提出了Graph-LLaDA，将图Transformer编码器集成到LLaDA的解码过程中，显式利用关系图结构。跨数据集评估表明，基于LLM和MDLM的方法泛化能力显著优于传统基线。

论文扩散模型图到文本生成解码轨迹 Graph-LLaDA SFT

推荐理由：这篇论文揭示了扩散模型在图到文本任务中的独特解码机制，做结构化文本生成或知识图谱相关工作的开发者值得关注，尤其是SFT反而有害的发现可能改变你的微调策略。