论文76°

多智能体强化学习实现超人类安全竞速,无人机时速超22米

Superhuman Safe and Agile Racing through Multi-Agent Reinforcement Learning

精选理由

这项研究证明了多智能体强化学习在物理世界交互中的安全优势,做无人机、自动驾驶或机器人协作的团队值得关注——它用竞速场景给出了一个可复现的范式。

AI 摘要

苏黎世大学团队通过多智能体强化学习(MARL)训练高速四旋翼无人机竞速,在超过22米/秒的速度下,不仅击败了人类冠军飞行员,还将碰撞率比最先进的单智能体基线降低了50%。该研究以联赛式自对弈训练智能体学会主动避让、超车和处理复杂气动干扰,并实现了对人类的零样本安全泛化。结果表明,多智能体交互的严苛训练比孤立的安全约束更能实现鲁棒的机器人共存。

AI 翻译 · 中文

苏黎世大学团队通过多智能体强化学习(MARL)训练高速四旋翼无人机竞速,在超过22米/秒的速度下,不仅击败了人类冠军飞行员,还将碰撞率比最先进的单智能体基线降低了50%。该研究以联赛式自对弈训练智能体学会主动避让、超车和处理复杂气动干扰,并实现了对人类的零样本安全泛化。结果表明,多智能体交互的严苛训练比孤立的安全约束更能实现鲁棒的机器人共存。

arXiv cs.AIAutonomous systems have achieved superhuman performance in isolation or simulation, yet they remain brittle in shared, dynamic real-world spaces. This failure stems from the dominant single-agent paradigm for physical ap