11:12arXiv cs.LG@Yashdeep Chaudhary, Roberto Armellin, Harry Holt, Marco Sagliano本文提出一种分布无关的鲁棒轨迹优化框架,基于机会约束强化学习。不确定性通过初始条件和过程噪声表示,仅需可采样。先离线计算确定性标称轨迹,再通过强化学习鲁棒化基线,采用结构化仿射闭环修正律(前馈调整+时变反馈增益)。概率可行性通过基于rollout的上尾分位数经验保证,终端散布通过协方差可行性惩罚调节。在地球-火星转移和大气定点火箭着陆两个案例中验证,表明该方法在保持概率可行性的同时,燃料成本竞争力强,且核心随机控制结构可跨异构航天器轨迹规划问题复用。论文鲁棒轨迹优化机会约束强化学习航天器规划分布无关推荐理由:航天器轨迹规划团队终于有了一个分布无关的鲁棒优化方案——无需假设不确定性分布,仅需可采样,且能跨问题复用核心结构。做深空任务或火箭着陆控制的开发者可以直接参考其强化学习鲁棒化方法。原文