全部 AI 动态 · AI 热点

6月23日

12:06

12:06

arXiv: DeepSeek@Haitham Al-Shami, Rohail Malik, Riku Ala-Laurinaho, Jari Vepsäläinen, Raine Viitala

本文提出一个人机协作框架，自动识别并修复SysML v2模型中的语义错误。框架结合微调的小语言模型（SLM）与领域知识图谱，其中知识图谱编码系统元素间的物理兼容性规则。通过系统引入领域违规，知识图谱指导生成合成训练数据，并在推理时增强模型以提供符合工程约束的修复建议。在车辆系统领域，对Qwen2.5-Coder-1.5B和DeepSeek-Coder-6.7B进行微调，输出统一diff补丁来定位故障并呈现候选修复。在1184个测试样本上，微调将语义故障修复率从低于3%提升至超过91%，且补丁输出减少令牌长度超过60%。

论文 SysML v2 Qwen2.5-Coder-1.5B DeepSeek-Coder-6.7B 知识图谱模型验证

推荐理由：这篇论文提出一个好方法：用知识图谱加小模型自动修SysML v2语义错误，修复率飙到91%，相比传统编译器管不了语义错误，这招很实用。

6月18日

09:22

09:22

arXiv: DeepSeek@Siddharth Aphale, Kelly Liu

一项研究分析了SFT（监督微调）的过度训练对RLVR（基于强化学习的验证）训练的影响。使用Qwen2.5-Coder-3B和DeepSeek-Coder-6.7B模型，发现SFT深度增加时，预RL的pass@1上升，但GRPO的pass@10从0.806降至0.481（3种子均值，n=20）。预RL熵与GRPO结果正相关（ρ=+0.69）。研究者提出一个两阶段诊断方法，结合预RL熵筛选和早期GRPO熵监控，可标记高风险检查点。简单KL正则化和标签平滑无法挽救已崩溃的检查点。

论文 Qwen2.5-Coder-3B DeepSeek-Coder-6.7B SFT RLVR 强化学习

推荐理由：这篇论文发现了SFT过训练会搞崩GRPO训练的秘密，还给出了诊断方法来提前止损。做RLHF或强化学习训练的可以看看。

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？