10:26arXiv cs.AI@Roohan Ahmed Khan, Yasheerah Yaqoot, Muhammad Ahsan Mustafa, Dzmitry TsetserukouAgenticRL 是一种结合多模态 GPT 智能体的强化学习框架,专为无人机视觉导航任务设计。它通过 GPT 智能体自动生成奖励函数、训练策略并自我评估,形成闭环自优化流程。在多种导航任务(如穿越门、避障、轨迹跟踪)中,闭环优化使策略性能提升71%。该框架还支持从仿真到真实环境的迁移,真实世界成功率达91%,仿真到真实准确率94%。这大幅减少了传统强化学习中对人工设计奖励和反复调参的依赖。论文强化学习无人机导航多模态GPT奖励函数设计仿真到真实迁移推荐理由:做无人机导航或机器人强化学习的团队,终于有了能自动设计奖励函数并自我优化的框架,省去大量手动调参时间,建议直接看实验部分。原文