10:06
arXiv: DeepSeek@Lei Yu, Peng Wang, Jia Xu, Jingyuan Zhang, Xin Wang, Jiajia Ma, Li Yang, Changzhi Deng, Zenghua Wang, Fengjun Zhang BashCoder-R1提出三阶段框架:连续预训练(CPT)专业化Bash范式、长思维链监督微调(L-CoT SFT)模拟风险意识推理、鲁棒性感知分组相对策略优化(R-GRPO)优化语法与鲁棒性。在包含952个真实任务(773单行,179多行)的BashBench基准上,单行/多行任务SyntaxPass达100.00%/94.97%,RobustPass达95.99%/79.33%,FullRate达90.04%/73.18%。相比最强基线DeepSeek-V3.2(推理)在FullRate上分别提升37.82%和20.18%。
推荐理由:BashCoder-R1用三阶段训练让AI写bash脚本更稳更可解释,在BashBench上比DeepSeek-V3.2完整率高出一大截。