11:12arXiv cs.AI@Pengxin Wang, Lihao Guo, Yi Xie, Bo Liu, Siyang Cao, Jingdi Chen本研究提出了偏好协调多智能体策略优化(PCMA),用于解决合作多目标多智能体强化学习中的冲突问题。PCMA为每个智能体学习协调的个性化偏好,使智能体在多个目标(如效率与公平)之间形成互补性权衡。理论证明,在一定条件下,偏好多样性可通过一阶改进分解推动团队整体提升。在多个合作多目标环境及实际交通控制场景中,PCMA同时提升了任务性能和权衡协调能力。论文PCMA多智能体强化学习多目标优化偏好协调推荐理由:让多智能体学会互相配合完成多目标任务原文
10:40arXiv cs.AI@Mohamed Sayed, Wolfram Burgard, Tanja Katharina Kaiser精选该研究提出一种基于多智能体强化学习的方法,解决多机器人系统协同运输任意形状、质量分布不均物体时的队形控制问题。传统方法将任务分解为队形控制、协同导航和避障三个子问题,但难以应对真实物体的复杂几何与质量分布。新方法让机器人自主在物体下方定位以支撑重量,同时避开障碍物形成平衡队形。实验表明,该方法在不同环境和机器人数量下均能生成可靠策略,并泛化到复杂场景。论文多智能体强化学习协同运输队形控制机器人避障推荐理由:做多机器人协同运输的团队终于有了能处理真实物体形状和质量分布的方案——不用再手工设计队形,机器人能自主适应。做物流、仓储或服务机器人的开发者值得关注。原文
11:14arXiv cs.AI@Ismail Geles, Leonard Bauersfeld, Markus Wulfmeier, Davide Scaramuzza76°苏黎世大学团队通过多智能体强化学习(MARL)训练高速四旋翼无人机竞速,在超过22米/秒的速度下,不仅击败了人类冠军飞行员,还将碰撞率比最先进的单智能体基线降低了50%。该研究以联赛式自对弈训练智能体学会主动避让、超车和处理复杂气动干扰,并实现了对人类的零样本安全泛化。结果表明,多智能体交互的严苛训练比孤立的安全约束更能实现鲁棒的机器人共存。论文多智能体强化学习无人机竞速安全交互零样本泛化苏黎世大学推荐理由:这项研究证明了多智能体强化学习在物理世界交互中的安全优势,做无人机、自动驾驶或机器人协作的团队值得关注——它用竞速场景给出了一个可复现的范式。原文
11:29arXiv cs.AI@Amin Farajzadeh, Melike Erol-Kantarci精选针对6G超密集网络中同频干扰严重的问题,研究者提出了一种名为FedCritic的无服务器联邦多智能体演员-评论家框架,用于联合子载波调度和功率分配。该框架通过虚拟队列赤字权重强制执行长期服务质量约束,并利用基于干扰图的轻量级八卦参数平均来联邦化评论家网络,无需中央协调器即可实现稳定价值估计。仿真表明,在干扰密集的复用-1场景下,FedCritic相比非协调和集中式训练分散执行基线,显著提升了平均信干噪比、小区边缘速率、网络总速率和公平性,同时训练更稳定且协调开销更低。这项工作为6G分布式资源管理提供了一种高效、可扩展的解决方案。论文6G资源分配联邦学习多智能体强化学习OFDMA推荐理由:6G超密集组网中的干扰管理是业界难题,FedCritic用无服务器联邦学习解决了集中式训练的高开销问题,做无线资源调度和网络优化的研究者可以直接参考其轻量级协调方案。原文
09:46arXiv cs.AI@Alexi Canesse, Benoît Goupil, Jesse Read, Sonia Vanier精选多智能体强化学习(MARL)中,通信是实现协作的关键,但许多实际应用(如无人机群搜索救援)面临严重的带宽限制。现有通信架构通常将共享潜在表示同时用于策略执行和智能体间通信,导致减少消息大小会直接限制策略的潜在空间,造成性能显著下降。本文提出两个贡献:一是引入归一化的每智能体带宽预算 β,统一了稀疏性、轮次和消息维度;二是提出 SLIM 架构,将通信路径与策略的潜在表示解耦,从而隔离带宽对策略容量的影响。实验表明,SLIM 在多个部分可观测的 MARL 基准上达到最先进性能,并在带宽减少时仅出现轻微性能下降,展现出良好的可扩展性和鲁棒性。论文多智能体强化学习带宽约束通信解耦SLIM鲁棒性推荐理由:做多智能体系统或机器人集群的团队,终于有了一个能直接应对带宽瓶颈的架构——SLIM 解耦通信与策略,带宽砍半性能也不崩,值得在无人机或边缘设备场景里试试。原文
11:16arXiv cs.LG@Sangjun Bae, Yisak Park, Sanghyeon Lee, Seungyul Han精选多智能体强化学习(MARL)中,通信是缓解部分可观测性的关键,但现有方法常存在信息交换低效或状态信息不足的问题。研究者提出LMAC(LLM驱动的多智能体通信),利用大语言模型的推理能力设计通信协议,让所有智能体尽可能准确且一致地重构底层状态。LMAC通过显式的状态感知准则迭代优化协议,改善状态恢复并缩小智能体间的知识差异。在多个MARL基准测试中,LMAC显著提升了智能体间的状态重建质量,并在性能上大幅超越之前的通信基线方法。论文多智能体强化学习LLM推理通信协议状态重建LMAC推荐理由:做MARL研究的团队终于有了一个利用LLM推理能力来设计通信协议的实用方案,LMAC直接解决了部分可观测性下的信息瓶颈问题,值得在实验环境中试试。原文