论文精选

静态分析奖励与提示扩散RL提升代码生成性能

Beyond Execution: Static-Analysis Rewards and Hint-Conditioned Diffusion RL for Code Generation

精选理由

做代码生成模型训练的团队会发现,静态检查奖励比执行测试更高效且能避免能力悬崖,建议在困难任务上优先采用。

AI 摘要

该论文系统研究了扩散语言模型在代码生成中的强化学习后训练,重点探索了三种维度:奖励设计、提示条件采样和任务难度。研究发现,静态检查作为无需执行的奖励信号,在HumanEval上使DiffuCoder从53.9提升至67.1,在LiveCodeBench上从14.9提升至15.5,同时减少9.4%的推理时间。中等程度的AST提示在困难任务上最有效,而奖励设计的最佳选择依赖于任务难度:相似度奖励在简单子集上更优,静态检查在困难子集上更可靠。这些发现表明,奖励设计和训练指导显著影响扩散RL在代码生成中的表现。

AI 翻译 · 中文

该论文系统研究了扩散语言模型在代码生成中的强化学习后训练,重点探索了三种维度:奖励设计、提示条件采样和任务难度。研究发现,静态检查作为无需执行的奖励信号,在HumanEval上使DiffuCoder从53.9提升至67.1,在LiveCodeBench上从14.9提升至15.5,同时减少9.4%的推理时间。中等程度的AST提示在困难任务上最有效,而奖励设计的最佳选择依赖于任务难度:相似度奖励在简单子集上更优,静态检查在困难子集上更可靠。这些发现表明,奖励设计和训练指导显著影响扩散RL在代码生成中的表现。

arXiv cs.AIReinforcement Learning (RL) is an important paradigm for aligning Diffusion Language Models (DLMs) toward functional correctness in code generation. However, these models often encounter a ``capability cliff'' on complex