静态分析奖励与提示扩散RL提升代码生成性能

精选理由

做代码生成模型训练的团队会发现，静态检查奖励比执行测试更高效且能避免能力悬崖，建议在困难任务上优先采用。

AI 摘要

该论文系统研究了扩散语言模型在代码生成中的强化学习后训练，重点探索了三种维度：奖励设计、提示条件采样和任务难度。研究发现，静态检查作为无需执行的奖励信号，在HumanEval上使DiffuCoder从53.9提升至67.1，在LiveCodeBench上从14.9提升至15.5，同时减少9.4%的推理时间。中等程度的AST提示在困难任务上最有效，而奖励设计的最佳选择依赖于任务难度：相似度奖励在简单子集上更优，静态检查在困难子集上更可靠。这些发现表明，奖励设计和训练指导显著影响扩散RL在代码生成中的表现。

AI 翻译 · 中文

arXiv cs.AIReinforcement Learning (RL) is an important paradigm for aligning Diffusion Language Models (DLMs) toward functional correctness in code generation. However, these models often encounter a ``capability cliff'' on complex…

阅读原文