强化学习中分布偏移的因果起源统一分类法

精选理由

这篇论文把RL里训练和测试环境不一致的问题，用因果原因做了系统分类，还统一了OOD泛化和非平稳性的视角，搞清楚偏移根源才能更好做鲁棒性分析。

AI 摘要

该论文提出一种基于因果起源的统一分类法，用于描述强化学习（RL）中的分布偏移。作者将监督学习中的经典数据集偏移原则迁移到RL，通过部分可观测马尔可夫决策过程（POMDP）将交互分解为状态分布、观测过程、策略、奖励和转移动力学等结构组件。分类法区分了内部（智能体驱动）和外部（环境驱动）两种分布偏移，并从偏移时间边界角度定义了显式、隐式和混合偏移。该方法统一了分布内/分布外（ID/OOD）泛化与非平稳性，并引入性能退化与恢复指标来评估偏移影响和适应性。

AI 翻译 · 中文

arXiv cs.LGReinforcement learning (RL) systems often degrade when operating conditions differ from those previously encountered, reflecting distributional shifts in the underlying data-generating process. Such shifts may occur betw…

阅读原文