AITP
精选全部 AI 动态AI 日报Agent 接入关于更新日志信源提报反馈
登录 / 注册
AITOP
全部 AI 动态
AI 相关资讯全量信息流
全部博客资讯推文论文
全部模型产品行业论文技巧
标签:DeepSeek-Coder-6.7B×
6月23日
12:06
12:06arXiv: DeepSeek@Haitham Al-Shami, Rohail Malik, Riku Ala-Laurinaho, Jari Vepsäläinen, Raine Viitala
本文提出一个人机协作框架,自动识别并修复SysML v2模型中的语义错误。框架结合微调的小语言模型(SLM)与领域知识图谱,其中知识图谱编码系统元素间的物理兼容性规则。通过系统引入领域违规,知识图谱指导生成合成训练数据,并在推理时增强模型以提供符合工程约束的修复建议。在车辆系统领域,对Qwen2.5-Coder-1.5B和DeepSeek-Coder-6.7B进行微调,输出统一diff补丁来定位故障并呈现候选修复。在1184个测试样本上,微调将语义故障修复率从低于3%提升至超过91%,且补丁输出减少令牌长度超过60%。
论文SysML v2Qwen2.5-Coder-1.5BDeepSeek-Coder-6.7B知识图谱模型验证

推荐理由:这篇论文提出一个好方法:用知识图谱加小模型自动修SysML v2语义错误,修复率飙到91%,相比传统编译器管不了语义错误,这招很实用。
原文
6月18日
09:22
09:22arXiv: DeepSeek@Siddharth Aphale, Kelly Liu
一项研究分析了SFT(监督微调)的过度训练对RLVR(基于强化学习的验证)训练的影响。使用Qwen2.5-Coder-3B和DeepSeek-Coder-6.7B模型,发现SFT深度增加时,预RL的pass@1上升,但GRPO的pass@10从0.806降至0.481(3种子均值,n=20)。预RL熵与GRPO结果正相关(ρ=+0.69)。研究者提出一个两阶段诊断方法,结合预RL熵筛选和早期GRPO熵监控,可标记高风险检查点。简单KL正则化和标签平滑无法挽救已崩溃的检查点。
论文Qwen2.5-Coder-3BDeepSeek-Coder-6.7BSFTRLVR强化学习

推荐理由:这篇论文发现了SFT过训练会搞崩GRPO训练的秘密,还给出了诊断方法来提前止损。做RLHF或强化学习训练的可以看看。
原文
6月16日
20:46
AITOP6月16日 20:46
600亿美元买下Cursor,xAI终于拿到了编程工具,但真正值得跟踪的或许不是AI600亿美元买下Cursor,xAI终于拿到了编程工具,但真正值得跟踪的或许不是AI
6月12日
12:57
AITOP6月12日 12:57
Claude代码里藏了个20260612,18个月后的AI记忆革命已经开始倒计时
6月11日
15:28
AITOP6月11日 15:28
1107 vs 303:谷歌悄悄开源了一个“拆打字机”的模型,把大模型速度翻了4倍
15:23
AITOP6月11日 15:23
DiffusionGemma颠覆文本生成?自回归模型的“统治”要结束了
15:07
AITOP6月11日 15:07
每秒1107个token,Google开源的扩散模型为什么能改变本地推理格局?
精选全部日报登录