12:06arXiv: DeepSeek@Haitham Al-Shami, Rohail Malik, Riku Ala-Laurinaho, Jari Vepsäläinen, Raine Viitala本文提出一个人机协作框架,自动识别并修复SysML v2模型中的语义错误。框架结合微调的小语言模型(SLM)与领域知识图谱,其中知识图谱编码系统元素间的物理兼容性规则。通过系统引入领域违规,知识图谱指导生成合成训练数据,并在推理时增强模型以提供符合工程约束的修复建议。在车辆系统领域,对Qwen2.5-Coder-1.5B和DeepSeek-Coder-6.7B进行微调,输出统一diff补丁来定位故障并呈现候选修复。在1184个测试样本上,微调将语义故障修复率从低于3%提升至超过91%,且补丁输出减少令牌长度超过60%。论文SysML v2Qwen2.5-Coder-1.5BDeepSeek-Coder-6.7B知识图谱模型验证推荐理由:这篇论文提出一个好方法:用知识图谱加小模型自动修SysML v2语义错误,修复率飙到91%,相比传统编译器管不了语义错误,这招很实用。原文
09:22arXiv: DeepSeek@Siddharth Aphale, Kelly Liu一项研究分析了SFT(监督微调)的过度训练对RLVR(基于强化学习的验证)训练的影响。使用Qwen2.5-Coder-3B和DeepSeek-Coder-6.7B模型,发现SFT深度增加时,预RL的pass@1上升,但GRPO的pass@10从0.806降至0.481(3种子均值,n=20)。预RL熵与GRPO结果正相关(ρ=+0.69)。研究者提出一个两阶段诊断方法,结合预RL熵筛选和早期GRPO熵监控,可标记高风险检查点。简单KL正则化和标签平滑无法挽救已崩溃的检查点。论文Qwen2.5-Coder-3BDeepSeek-Coder-6.7BSFTRLVR强化学习推荐理由:这篇论文发现了SFT过训练会搞崩GRPO训练的秘密,还给出了诊断方法来提前止损。做RLHF或强化学习训练的可以看看。原文