全部 AI 动态 · AI 热点

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

6月15日

11:12

11:12

arXiv cs.AI@Pengxin Wang, Lihao Guo, Yi Xie, Bo Liu, Siyang Cao, Jingdi Chen

本研究提出了偏好协调多智能体策略优化（PCMA），用于解决合作多目标多智能体强化学习中的冲突问题。PCMA为每个智能体学习协调的个性化偏好，使智能体在多个目标（如效率与公平）之间形成互补性权衡。理论证明，在一定条件下，偏好多样性可通过一阶改进分解推动团队整体提升。在多个合作多目标环境及实际交通控制场景中，PCMA同时提升了任务性能和权衡协调能力。

论文 PCMA 多智能体强化学习多目标优化偏好协调

推荐理由：让多智能体学会互相配合完成多目标任务

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

6月9日

10:40

10:40

arXiv cs.AI@Mohamed Sayed, Wolfram Burgard, Tanja Katharina Kaiser

精选

该研究提出一种基于多智能体强化学习的方法，解决多机器人系统协同运输任意形状、质量分布不均物体时的队形控制问题。传统方法将任务分解为队形控制、协同导航和避障三个子问题，但难以应对真实物体的复杂几何与质量分布。新方法让机器人自主在物体下方定位以支撑重量，同时避开障碍物形成平衡队形。实验表明，该方法在不同环境和机器人数量下均能生成可靠策略，并泛化到复杂场景。

论文多智能体强化学习协同运输队形控制机器人避障

推荐理由：做多机器人协同运输的团队终于有了能处理真实物体形状和质量分布的方案——不用再手工设计队形，机器人能自主适应。做物流、仓储或服务机器人的开发者值得关注。

5月22日

11:14

11:14

arXiv cs.AI@Ismail Geles, Leonard Bauersfeld, Markus Wulfmeier, Davide Scaramuzza

76°

苏黎世大学团队通过多智能体强化学习（MARL）训练高速四旋翼无人机竞速，在超过22米/秒的速度下，不仅击败了人类冠军飞行员，还将碰撞率比最先进的单智能体基线降低了50%。该研究以联赛式自对弈训练智能体学会主动避让、超车和处理复杂气动干扰，并实现了对人类的零样本安全泛化。结果表明，多智能体交互的严苛训练比孤立的安全约束更能实现鲁棒的机器人共存。

论文多智能体强化学习无人机竞速安全交互零样本泛化苏黎世大学

推荐理由：这项研究证明了多智能体强化学习在物理世界交互中的安全优势，做无人机、自动驾驶或机器人协作的团队值得关注——它用竞速场景给出了一个可复现的范式。

5月21日

11:29

11:29

arXiv cs.AI@Amin Farajzadeh, Melike Erol-Kantarci

精选

针对6G超密集网络中同频干扰严重的问题，研究者提出了一种名为FedCritic的无服务器联邦多智能体演员-评论家框架，用于联合子载波调度和功率分配。该框架通过虚拟队列赤字权重强制执行长期服务质量约束，并利用基于干扰图的轻量级八卦参数平均来联邦化评论家网络，无需中央协调器即可实现稳定价值估计。仿真表明，在干扰密集的复用-1场景下，FedCritic相比非协调和集中式训练分散执行基线，显著提升了平均信干噪比、小区边缘速率、网络总速率和公平性，同时训练更稳定且协调开销更低。这项工作为6G分布式资源管理提供了一种高效、可扩展的解决方案。

论文 6G 资源分配联邦学习多智能体强化学习 OFDMA

推荐理由：6G超密集组网中的干扰管理是业界难题，FedCritic用无服务器联邦学习解决了集中式训练的高开销问题，做无线资源调度和网络优化的研究者可以直接参考其轻量级协调方案。

09:46

09:46

arXiv cs.AI@Alexi Canesse, Benoît Goupil, Jesse Read, Sonia Vanier

精选

多智能体强化学习（MARL）中，通信是实现协作的关键，但许多实际应用（如无人机群搜索救援）面临严重的带宽限制。现有通信架构通常将共享潜在表示同时用于策略执行和智能体间通信，导致减少消息大小会直接限制策略的潜在空间，造成性能显著下降。本文提出两个贡献：一是引入归一化的每智能体带宽预算 β，统一了稀疏性、轮次和消息维度；二是提出 SLIM 架构，将通信路径与策略的潜在表示解耦，从而隔离带宽对策略容量的影响。实验表明，SLIM 在多个部分可观测的 MARL 基准上达到最先进性能，并在带宽减少时仅出现轻微性能下降，展现出良好的可扩展性和鲁棒性。

论文多智能体强化学习带宽约束通信解耦 SLIM 鲁棒性

推荐理由：做多智能体系统或机器人集群的团队，终于有了一个能直接应对带宽瓶颈的架构——SLIM 解耦通信与策略，带宽砍半性能也不崩，值得在无人机或边缘设备场景里试试。

5月19日

11:16

11:16

arXiv cs.LG@Sangjun Bae, Yisak Park, Sanghyeon Lee, Seungyul Han

精选

多智能体强化学习（MARL）中，通信是缓解部分可观测性的关键，但现有方法常存在信息交换低效或状态信息不足的问题。研究者提出LMAC（LLM驱动的多智能体通信），利用大语言模型的推理能力设计通信协议，让所有智能体尽可能准确且一致地重构底层状态。LMAC通过显式的状态感知准则迭代优化协议，改善状态恢复并缩小智能体间的知识差异。在多个MARL基准测试中，LMAC显著提升了智能体间的状态重建质量，并在性能上大幅超越之前的通信基线方法。

论文多智能体强化学习 LLM推理通信协议状态重建 LMAC

推荐理由：做MARL研究的团队终于有了一个利用LLM推理能力来设计通信协议的实用方案，LMAC直接解决了部分可观测性下的信息瓶颈问题，值得在实验环境中试试。