10:17
arXiv cs.AI@Senjie Jin, Peixin Wang, Boyang Liu, Xiaoran Fan, Shuo Li, Zhiheng Xi, Jiazheng Zhang, Yuhao Zhou, Tao Gui, Qi Zhang, Xuanjing Huang 研究发现,在视觉推理任务中,仅依赖令牌级熵进行强化学习(RLVR)会失效,因为视觉敏感但熵低的令牌被忽略。现有多模态RL方法要么缺乏系统视觉度量,要么忽视熵主要驱动语义探索。为此,研究者提出VEPO框架,通过视觉敏感性与令牌熵的乘法耦合,将梯度信用分配给同时具备视觉基础和高信息量的令牌。实验表明,VEPO在7B和3B规模上分别比熵基线提升2.28和3.15个百分点,消融实验验证了方法的有效性。
推荐理由:视觉推理强化学习一直缺乏有效的信用分配机制,VEPO解决了这个痛点——做多模态RL的团队可以直接参考这个框架,在视觉-语义交叉场景中提升模型表现。