论文精选

VEPO:视觉锚定令牌选择解锁视觉推理强化学习

Entropy Is Not Enough: Unlocking Effective Reinforcement Learning for Visual Reasoning via Vision-Anchored Token Selection

精选理由

视觉推理强化学习一直缺乏有效的信用分配机制,VEPO解决了这个痛点——做多模态RL的团队可以直接参考这个框架,在视觉-语义交叉场景中提升模型表现。

AI 摘要

研究发现,在视觉推理任务中,仅依赖令牌级熵进行强化学习(RLVR)会失效,因为视觉敏感但熵低的令牌被忽略。现有多模态RL方法要么缺乏系统视觉度量,要么忽视熵主要驱动语义探索。为此,研究者提出VEPO框架,通过视觉敏感性与令牌熵的乘法耦合,将梯度信用分配给同时具备视觉基础和高信息量的令牌。实验表明,VEPO在7B和3B规模上分别比熵基线提升2.28和3.15个百分点,消融实验验证了方法的有效性。

AI 翻译 · 中文

研究发现,在视觉推理任务中,仅依赖令牌级熵进行强化学习(RLVR)会失效,因为视觉敏感但熵低的令牌被忽略。现有多模态RL方法要么缺乏系统视觉度量,要么忽视熵主要驱动语义探索。为此,研究者提出VEPO框架,通过视觉敏感性与令牌熵的乘法耦合,将梯度信用分配给同时具备视觉基础和高信息量的令牌。实验表明,VEPO在7B和3B规模上分别比熵基线提升2.28和3.15个百分点,消融实验验证了方法的有效性。

arXiv cs.AIWhile token-level entropy is commonly recognized as effective for credit assignment in text-only reinforcement learning with verifiable rewards (RLVR), it remains unclear whether this mechanism still holds in visual reas