reward·general

Reward

别名
首次出现
2026-05-22
最近出现
2026-06-09
累计提及
34
§ 01综述

奖励(Reward)在强化学习和模型对齐中扮演核心角色,近期研究聚焦于如何更鲁棒地建模奖励、缓解偏差,并提升多任务平衡。一项工作指出多模态大模型的评测存在偏见,提出通过感知扰动和奖励建模方案来缓解,展现了奖励函数设计对评估公平性的影响(多模态大模型评测偏见)。另一项研究引入上下文学习实现奖励自适应,让模型根据上下文动态调整偏好建模,提高了对分布变化的鲁棒性(In-Context Reward Adaptation)。此外,MARBLE方法通过多面奖励平衡,在扩散模型强化学习中协调多个奖励信号,有效提升了生成质量(MARBLE)。当前焦点在于如何设计更通用、无偏的奖励模型,以及在不同任务中自动平衡多个奖励目标。未来,结合上下文自适应和鲁棒性优化的奖励框架有望推动AI系统更可靠地与人类偏好对齐。

§ 02相关报道03 条在档
  1. 01
    多模态大模型评测偏见:Perceptual Perturbation 与 Reward Modeling 缓解方案
    arXiv cs.AI
  2. 02
    In-Context Reward Adaptation:用上下文学习实现鲁棒偏好建模
    arXiv cs.AI
  3. 03
    MARBLE:多面奖励平衡提升扩散模型RL
    AK
§ 03邻近话题

本页综述由 AITOP 基于公开报道整理。原报道版权归各自来源所有。

/topic/Reward