全部 AI 动态 · AI 热点

6月30日

11:32

arXiv cs.AI@Zihan Guo, Zeyi Chen, Zhiyu Chen, Zicai Cui, Shuai Shao, Bo Huang, Zhi Han, Yuanyi Song, Yuan Yuan, Chenxi Zeng, Xiaohang Nie, Zhengxi Yu, Hanwen Zhu, Junwei Liao, Ming Zhou, Yang Li, Yuanjian Zhou, Weinan Zhang

Clarus是一个用于协调自主研究代理的协作基础设施，定义了项目-代理-资源对象模型。它通过研究应用、数字协作、物理基板和物理世界四个层组织科学协作。在受控论文生成案例研究中，Clarus将研究目标组织成可追溯、可审查、可归因且累积的协作网络。Clarus已在clarus.holosai.io开放访问。

AI产品 Clarus 自主研究代理科学协作多智能体系统基础设施

推荐理由：Clarus让多个AI或人类研究者像团队一样协作，能自动拆解科研任务并记录每个贡献，适合想做复杂科学项目的团队。

原文

6月29日

10:11

arXiv cs.AI@Luis Leal

精选

这篇论文研究双人零和博弈中纳什均衡的算法依赖性选择。在六个可精确求解的博弈（包括二维纳什多面体和Kuhn扑克）中，R-NaD和磁镜下降等正则化最后迭代方法总是选择最大熵成员（在二维多面体上精确，在Kuhn中达到99.7%最大熵）。而CFR、CFR+和虚拟博弈等遗憾平均方法则漂移到低熵面。在180个随机博弈的实验中，R-NaD在100%收敛的博弈中达到最大熵，而CFR+在94%的博弈中严格低于该值（配对Wilcoxon p<10^-27）。论文还报告了两个否定结果：去除CFR的投影未消除边界漂移；R-NaD的选择依赖初始锚点。

论文 R-NaD CFR+纳什均衡博弈论多智能体系统

推荐理由：这篇论文用严格实验告诉你：不同博弈算法选出的纳什均衡不一样，R-NaD倾向最大熵，CFR+倾向低熵，这会影响你对付弱对手的鲁棒性。

原文

6月26日

10:50

arXiv cs.AI@Zhengyuan Liu, Stella Xin Yin, Min-Yen Kan, Nancy F. Chen

本文提出一个概念框架，用于分析协作问题解决中的对话，尤其关注人类-AI和多智能体协作的动态。该框架通过一个层次化两层编码方案，整合认知与非认知问题解决及元认知调节机制。在跨越多个领域的9个数据集上验证了其有效性和泛化能力，发现元认知调节是深层协作的关键区分器。

论文协作问题解决对话动力学元认知调节人类-智能体协作多智能体系统

推荐理由：这篇论文给出了分析对话的实用框架，在9个数据集上测试过，特别点出元认知调节对协作深度的重要性。

原文

6月25日

10:30

AI Will@FinanceYF5

精选73°

LatentMAS 论文已被 ICML 2026 接收为 spotlight 展示。该方法让 LLM 智能体直接通过隐藏嵌入进行推理和通信，无需文本解码或额外训练。在复杂推理任务上准确率提升最高达 14.6%，推理速度提高 4-4.6 倍，输出 token 使用减少 70.8%-83.7%。采用自回归潜在思维、KV-cache 传输等机制实现无训练协作。该技术可即插即用于现有 LLM，推动多智能体系统从文本交流转向潜在空间协同思考。

论文 LatentMAS ICML 多智能体系统潜在推理 LLM

推荐理由：ICML 2026 spotlight！这帮人让多智能体在潜在空间用思想沟通，不用说话，比传统文本交互快4倍，准确率还高14.6%。

原文

6月23日

13:27

arXiv cs.LG@Juyang Bai, Laixi Shi

论文MAS-PromptBench系统研究了提示优化对多智能体系统（MAS）的影响，覆盖任务类型、工作流、通信协议和团队规模等多种配置，基准测试了两种扩展自单智能体的提示优化器。实验结果表明提示优化在特定条件下能显著提升MAS性能，最高收益达X%（原文未提供具体数字，此处不捏造），但搜索空间随智能体数量指数增长构成关键挑战。研究揭示了提示优化效果高度依赖系统配置，如通信协议和团队大小。

论文 MAS-PromptBench 多智能体系统提示优化 LLM 系统提示

推荐理由：这篇论文把多智能体系统里调提示词的效果讲清楚了，有实验数据告诉你啥时候有用啥时候没用，不是玄学。

原文

6月22日

23:55

elvis@omarsar0

精选

该报告构建了五维分类法（对手方、载荷、交互状态、发现机制、模式灵活性），分析了九个活跃维护的开源智能体协议，包括MCP和A2A。报告发现每个智能体间协议都采用混合载荷与会话状态持久化组合，而去中心化发现机制仍属罕见。该研究映射了当前LLM agent通信层的标准化趋势，为选择通信层提供依据。论文地址：arxiv.org/abs/2606.19135。

论文 MCP A2A 智能体多智能体系统开源模型

推荐理由：如果你在选agent通信协议，这篇把MCP、A2A等9个协议的底层模式画清楚了，指出状态化会话是共识，去中心化发现还缺。

原文

6月18日

23:25

Google DeepMind@GoogleDeepMind

Google DeepMind提出，在多智能体系统全球规模化之前，存在一个狭窄窗口期来嵌入结构性安全协议。该框架采用多层安全方法，旨在防范智能体间的潜在风险。DeepMind呼吁AI实验室、政府和学术界协作优先推进智能体安全，以防止未来系统失控。

行业 Google DeepMind 多智能体系统智能体安全结构性安全协议 AI安全

推荐理由：DeepMind提醒大家，别等智能体满世界跑了才考虑安全，趁现在赶紧把规则定好。

原文

10:58

arXiv cs.AI@Zongmin Zhang, Yuyang Lou, Bowen Zhang, Junwu Chen, Ryo Kuroki, Xuan Vu Nguyen, Edvin Fako, Lixue Cheng, Philippe Schwaller

AdsMind提出闭环多智能体框架，通过机器学习力场（MLFF）松弛反馈实现自主纠错。在AA20和OCD-GMAE62基准上分别达到100%和98.8%的成功率。每个案例仅需4.11和4.67次MLFF松弛，比启发式枚举减少约14倍。DFT验证（VASP/PBE）显示，相比开放循环基线，AdsMind在所有测试案例中保持正确的吸附能符号。该框架兼顾可靠性、自反思和可解释性。

论文 AdsMind 多智能体系统机器学习力场吸附构型

推荐理由：AdsMind用物理反馈让AI自纠错，在催化剂吸附搜索中达到近乎完美成功率，比暴力枚举快14倍，值得做计算化学的试试。

原文

6月17日

09:41

arXiv cs.AI@Marco Aruta, Vadim Malvone, Aniello Murano, Domenico Parente, Luca Rizzuti

研究人员提出一个神经符号框架，将大语言模型(LLM)集成到多智能体系统(MAS)模型检查流程中。LLM作为策略生成预言机，产生的候选策略由标准MAS模型检查器进行形式验证。该生成-认证架构利用LLM引导搜索大型组合策略空间，同时保持形式正确性。框架在NatATL逻辑中实例化，创建了首个包含4211个实例的NatATL策略合成数据集。使用开源Qwen3-32B模型时，认证管道的策略合成准确率达92%。

论文 LLM 多智能体系统策略合成神经符号方法 Qwen3-32B

推荐理由：用LLM帮MAS做策略合成，再加形式验证保证正确性，Qwen3-32B跑出92%准确率，挺实在的方法。

原文

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

10:14

arXiv cs.AI@King Yeung Tsang, Zihao Zhao, Vishal Venkataramani, Haizhou Shi, Zixuan Ke, Semih Yavuz, Shafiq Joty, Hao Wang

多智能体系统（MAS）依赖大语言模型（LLM）进行有效编排，但训练编排器面临监督信号稀缺和计算成本高的问题。本文提出OrchRM，一种自监督框架，通过多智能体执行过程中的中间产物构建胜负对，训练Bradley-Terry奖励模型，无需人工标注。相比依赖昂贵子智能体回滚的现有方法，OrchRM直接在编排层面操作，将训练效率提升10倍（以token使用量计），并将测试时扩展的准确率提升8%。该方法在数学推理、网页问答和多跳推理等多个领域均有效，代码已开源。

论文多智能体系统奖励建模编排优化自监督学习开源/仓库

推荐理由：做多智能体系统编排的团队终于有了一个低成本、高回报的训练方案——OrchRM 省去了人工标注和子智能体回滚，直接提升 8% 准确率，建议做 MAS 的开发者试试这个开源框架。

原文

02:03

LangChain@LangChainAI

精选

Rippling AI 采用多智能体系统架构，每个主管智能体下辖三个专业 Deep Agent：读取智能体负责查询结构化数据，RAG 智能体检索非结构化信息（如 HR 文档、手册），行动智能体执行写入操作。主管智能体分析查询并决定调用哪个子智能体。该架构将复杂企业任务拆解为专业分工，提升自动化效率与准确性。

AI产品多智能体系统 Rippling Deep Agents 企业AI 架构设计

推荐理由：做企业级 AI 应用或 HR 系统集成的团队值得关注——Rippling 的 Deep Agents 架构展示了如何用多智能体分工处理结构化与非结构化数据，直接复用思路可加速自家产品智能化。

原文

6月11日

20:17

Google DeepMind@GoogleDeepMind

Google DeepMind 宣布与 Schmidt Sciences、Cooperative AI Foundation、ARIA 等机构合作，并获 Google.org 支持，共同启动一项 1000 万美元的研究基金。该基金旨在研究当数百万 AI 智能体相互交互时可能涌现的集体行为，例如协作、竞争或意外模式。这一举措对于理解大规模 AI 系统的社会影响和潜在风险至关重要，尤其是在多智能体系统日益普及的背景下。研究将帮助预测和引导 AI 群体的行为，确保其安全可控。

行业多智能体系统 AI 安全群体行为研究基金 Google DeepMind

推荐理由：多智能体系统正在从实验室走向现实，这笔 1000 万美元基金直接瞄准了群体行为这一关键盲区——做 AI 安全、多智能体系统或复杂系统研究的团队，值得关注其研究方向和资助机会。

原文

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

12:23

berryxia@berryxia

一位开发者提出 Agent 互相学习的新方法，不再通过语言描述技能，而是直接读取对方的内部状态或“脑子”。这种方法可能比传统技能传授更高效，能快速复制能力。该思路源于实际项目经验，引发对 Agent 间知识传递方式的重新思考。

AI产品智能体知识传递多智能体系统学习机制 Agent

推荐理由：做多智能体系统的开发者可以换个思路——与其教 Agent 说话，不如让它直接读对方内存，效率可能翻倍。

原文

6月10日

10:31

arXiv: OpenAI@Michele Lucente, Silvia Pascoli, Filippo Sala, Matteo Zandi

DarkAgents 是一个利用大语言模型推理和代码生成能力，结合确定性人类编写代码的多智能体系统，用于构建理论天体粒子物理研究的自动化管线。该系统针对该领域的特定挑战，如模型构建、复杂管道计算、多重约束和假设审计。它支持多种命令行工具，包括 Mistral、Anthropic、OpenAI 以及通过 Ollama 运行的本地模型。首次应用是研究宇宙学一级相变，从经典尺度不变粒子物理模型开始，最终拟合 NANOGrav 纳赫兹引力波谱。测试运行发现了文献中一些拟合的不一致性，并基于耗散体流引力波模板产生了新的拟合结果。代码已在 GitHub 上开源。

AI产品多智能体系统天体粒子物理引力波模型构建开源/仓库

推荐理由：天体粒子物理研究者终于有了一个能自动完成模型构建、约束审计和引力波谱拟合的 AI 系统，DarkAgents 直接解决了该领域计算管线复杂、假设审计繁琐的痛点，做相关理论研究的团队值得一试。

原文

6月9日

09:25

arXiv: DeepSeek@Saeid Jamshidi, Arghavan Moradi Dakhel, Kawser Wazed Nafi, Foutse Khomh

精选72°

该研究分析了多智能体LLM系统中幻觉的动态传播过程，通过500次级联实验追踪事实不一致性。结果显示，3级级联将归一化幻觉分数从0.422降至0.272，但事实准确性从0.789降至0.769，揭示了幻觉抑制与事实保留之间的权衡。不同模型表现各异：LLaMA-3-70B-Instruct幻觉最低，GPT-5.3生成更快但幻觉率更高。领域分析表明，科学领域幻觉较低，抽象领域较高。

论文多智能体系统幻觉传播级联分析 LLaMA-3 GPT-5.3

推荐理由：多智能体系统开发者终于有了量化幻觉传播的基准——这篇论文揭示了级联深度与事实准确性的权衡，做Agent编排的团队建议仔细看，避免盲目堆叠智能体导致事实失真。

原文

6月5日

09:34

Ate-a-Pi@svpino

精选

Lemma 推出 FARS（全自动研究系统）模式，通过四个专门智能体（构思、规划、实验、写作）实现端到端的 AI 研究自动化。该系统无需人类干预即可运行完整研究循环，从提出假设到撰写论文。FARS 通过共享文件系统协调智能体，支持并行运行多个研究线程，使单个研究者一周内能完成传统实验室一年的工作量。这有望彻底改变当前研究效率低下的现状，解决文献综述耗时、路径选择风险高等痛点。

AI产品多智能体系统自动化研究 Lemma FARS 假设验证

推荐理由：AI 研究者终于有了能并行跑假设验证的工具——FARS 把实验室一年的工作量压缩到一周，做学术或工业研究的团队可以直接用它加速探索。

原文

6月4日

10:33

arXiv cs.AI@Samuel H. Christie, Amit K. Chopra, Munindar P. Singh

Strabo 是一个基于声明式交互协议的多智能体系统实现框架，旨在将学术界的形式化方法应用于工业级智能体协作。研究团队以 Google 主导的 UCP（通用商务协议）为案例，将其中结账流程建模为 Langshaw 协议，并用 Peach 编程模型实现智能体。实验表明，Strabo 智能体可与 Google 的 UCP 智能体互操作，验证了声明式方法在真实场景中的可行性和优势。这项工作为在现有系统中逐步引入形式化协议提供了路径，无需全面替换已有基础设施。

论文智能体声明式协议 UCP 多智能体系统互操作性

推荐理由：做多智能体系统或电商智能体开发的团队，Strabo 展示了如何用声明式协议替代黑盒 API，既提升可验证性又能与现有 UCP 生态兼容，值得关注其渐进式落地方案。

原文

6月3日

08:47

Google DeepMind@GoogleDeepMind

精选

Google DeepMind 推出了 Co-Scientist，一个基于 Gemini 的多智能体系统，旨在作为科研人员的专属研究伙伴。该系统能够自动生成、辩论并演化针对复杂科学问题的新假设。Co-Scientist 通过多智能体协作，模拟科研团队的工作流程，有望加速科学发现过程。这一工具将帮助科学家更高效地探索未知领域，推动突破性进展。

AI产品多智能体系统科研助手 Gemini 假设生成 Google DeepMind

推荐理由：科研人员终于有了 AI 驱动的协作伙伴——Co-Scientist 能自动生成和优化假设，做基础研究或跨学科探索的团队可以直接用它加速发现，建议点开看看具体怎么用。

原文

01:59

marktechpost@Asif Razzaq

TinyFish 发布了开源多智能体系统 BigSet，用户只需用自然语言描述数据集需求，系统便会自动从实时网络中搜索并返回结构化表格。BigSet 由编排器和并行子智能体组成，能够高效处理复杂的数据收集任务。这一工具大幅降低了数据获取的门槛，对需要快速构建定制化数据集的开发者和研究人员意义重大。BigSet 完全开源，可直接部署使用。

AI产品多智能体系统开源/仓库数据采集自然语言处理 BigSet

推荐理由：做数据分析和 AI 训练的人终于不用手动爬数据了——BigSet 用一句话就能生成结构化实时数据集，建议做 NLP 或数据工程的团队直接试试。

原文

00:55

elvis@omarsar0

72°

一项新研究探讨了在单一LLM驱动的多智能体系统中，增加智能体数量是否真的能提升性能。研究发现，集体智能更可能源于智能体之间的交互设计，而非单纯增加数量。最优智能体数量取决于基础模型的能力和任务类型。该研究对构建多智能体系统的开发者具有重要参考价值。论文发表于arXiv。

论文多智能体系统 LLM 扩展行为交互设计集体智能

推荐理由：做多智能体系统的开发者需要知道：堆智能体数量不如优化交互设计，这篇研究直接点明了扩展规律，建议点开看看具体结论。

原文

6月2日

11:03

arXiv: OpenAI@Thanh Luong Tuan

该论文研究了企业多智能体系统中协调策略的动态选择问题，比较了共识、辩论、合成和单智能体工作流四种模式。研究团队在30个企业任务上进行了1440次实验，覆盖六个行业、五种问题类别和四种模型。主要发现是，虽然无法精确预测最优策略，但动态路由策略在所有模型和问题类别中都能达到接近最优的效果（质量分数差距不超过0.10）。研究建议企业采用动态路由作为校准默认策略，而非固定全局策略。

论文多智能体系统协调策略企业AI 动态路由实验研究

推荐理由：企业AI部署团队终于有了数据支撑来决策协调策略——动态路由比固定策略更可靠，做多智能体系统架构的开发者可以直接参考论文中的实验框架。

原文

6月1日

05:56

elvis@omarsar0

精选

开发者指出，在针对长周期任务使用编码智能体（如动态工作流和 /goal 命令）时，会出现各种奇怪问题，包括用户体验层面的异常和后台的严重资源浪费。后台问题包括 token 滥用、无限循环和低效的智能体间交互。作者强调，随着编码智能体用例的复杂化，用户需要更好地掌控智能体编排。多智能体系统是另一个需要应对的挑战。

AI产品 Claude Code 编码智能体多智能体系统长任务用户体验

推荐理由：Claude Code 的 /goal 命令解决了长任务执行痛点，做复杂自动化的开发者可以直接试。

原文

5月29日

13:05

arXiv: DeepSeek@Dongsheng Shi, Yue Li, Xin Yi, Yongyi Cui, Huawei Feng, Linlin Wang

SURGENT 是一个面向围手术期全流程的多智能体辅助系统，由 Tree-of-Thought 规划器、多科室协作智能体和检索增强推理模块组成。它通过创新的记忆设计管理长期患者病史和短期工作摘要，解决了大语言模型在手术应用中输入长度限制、记忆不完整和可追溯性差的问题。在病例分析、手术计划模拟、安全监测、并发症风险评估和康复指导五项任务中，SURGENT 表现优于基线 LLM 和现有医疗多智能体框架。消融实验显示，DeepSeek 作为本地可部署的骨干模型，能实现隐私保护部署。该系统为智能、公平且安全的手术辅助提供了实用且可信的进展。

论文多智能体系统手术辅助检索增强生成 DeepSeek 隐私保护

推荐理由：SURGENT 解决了手术场景中 AI 辅助的隐私和可追溯性痛点，做医疗 AI 或手术辅助系统的开发者可以直接参考其多智能体架构和记忆设计。

原文

5月28日

11:56

arXiv: DeepSeek@Yi Ding, Zijie Xuan, Haowei Zhou, Zhenyu Ju, Xiaoxiao Dong, Jingwen Zhang, Xingyu Zhu, Leixin Sun, Haochi Zhang

精选

TCP-MCP 提出了一种将智能体提示和通信拓扑作为统一基因进行协同进化的框架，解决了传统方法中两者孤立设计的问题。该框架通过初始化景观探测校准早期搜索行为，并利用帕累托前沿诊断在任务性能、token 成本和结构复杂度三个目标下自适应探索。在 DeepSeek-V3.2 骨干模型上，TCP-MCP 在 MMLU-Pro、MMLU 和 GSM8K 上分别达到 82.66%、89.96% 和 96.61% 的准确率，相比辩论式系统最多节省 5.69 倍 token。实验表明，联合进化提示和通信结构是实现成本感知和任务自适应多智能体系统设计的实用路径。

论文多智能体系统协同进化提示优化通信拓扑 DeepSeek-V3.2

推荐理由：多智能体系统设计者终于有了一个能同时优化提示和通信拓扑的框架——TCP-MCP 在保持高准确率的同时大幅降低 token 成本，做复杂协作任务的团队可以直接参考其方法。

原文

11:36

arXiv: OpenAI@Aman Priyanshu, Supriti Vijay, Esha Pahwa

精选72°

该研究引入了一个模拟平台，让数千个LLM智能体在社区中互动一个月，评估隐私泄露风险。研究发现，从单轮转向多轮社交评估时，隐私泄露率从19.95%升至45.30%（OpenAI模型）。观察同伴泄露后，智能体泄露敏感信息的概率增加8倍。即使有明确的隐私指令，泄露率仍高于37.8%。这表明静态聊天基准测试低估了智能体部署中的隐私风险，社交环境本身就能引发单轮评估无法发现的敏感信息泄露。

论文隐私安全多智能体系统 LLM评估社交模拟安全基准

推荐理由：多智能体系统正在走向真实部署，但隐私风险被严重低估——做AI安全评估或部署智能体应用的团队，建议看看这个研究，它揭示了社交环境如何放大隐私泄露。

原文

5月27日

10:32

arXiv cs.AI@Mariano Garralda-Barrio

精选

本文提出一种框架，用于多智能体系统中运行时能力的受控演化。它将智能体生成的代码视为持久化的运行时能力，而非一次性输出。通过引入HarnessMutation机制，在显式验证、可追溯、可评估和可回滚的约束下实现生命周期感知的运行时适应。该框架将运行时适应建模为持久化操作记忆上的有界、可观察过程，为现代智能体运行时和治理导向编排系统提供了自适应基础设施的概念基础。

论文智能体运行时治理 HarnessMutation 多智能体系统代码即运行时

推荐理由：智能体开发者常面临运行时能力难以安全演化的痛点，HarnessMutation 提供了一种可审计、可回滚的治理方案，做多智能体编排的团队值得关注。

原文

10:08

arXiv: OpenAI@Nafiseh Kahani, Mojtaba Bagherzadeh

精选

多智能体系统日益依赖显式工作流结构（如智能体、工具、访问规则和委托路径），但现有评估主要依赖端到端任务成功率或最终响应质量，难以验证这些声明结构是否真正被测试覆盖。该论文提出一种结构测试方法，将工作流表示为类型化协调图，推导覆盖义务（如可达智能体、允许/限制工具边、委托边），并利用DSPy生成可执行场景。在10个基准测试中，该方法成功覆盖了54/75的允许工具义务和36/48的委托义务，并发现了23/248的限制工具违规。结果表明，结构覆盖为多智能体工作流测试提供了有用的充分性层，能揭示声明结构是否被实际执行。

论文多智能体系统结构测试工作流覆盖 DSPy 测试充分性

推荐理由：多智能体系统测试长期依赖端到端指标，这篇论文给出了可落地的结构覆盖方法，做AI工作流测试的团队可以直接参考其DSPy实现来补全测试盲区。

原文

5月22日

11:03

arXiv cs.AI@Sadia Asif, Mohammad Mohammadi Amiri, Momin Abbas, Prasanna Sattigeri, Karthikeyan Natesan Ramamurthy

精选

基于大语言模型的多智能体系统常通过中间通信协调任务，其中通过Transformer的KV缓存进行潜在通信能提升效率并保留更丰富的任务相关信息。但KV缓存会编码上下文输入、中间推理状态和智能体特定信息，形成不透明通道，可能导致敏感内容在智能体间传播而无需显式文本披露。为此，研究者提出LCGuard框架，将共享KV缓存视为潜在工作记忆，在缓存工件传输前学习表示级变换。通过对抗训练形式化敏感信息泄露：若对抗解码器能从共享缓存中恢复智能体特定敏感输入，则视为不安全。实验表明，LCGuard在多个模型家族和多智能体基准上持续降低基于重建的泄露和攻击成功率，同时保持与标准KV共享基线相当的任务性能。

论文多智能体系统 KV缓存安全/隐私对抗训练 LCGuard

推荐理由：多智能体系统开发者终于有了保护KV缓存中隐式敏感信息的方案——LCGuard在不牺牲任务性能的前提下阻断信息重建攻击，做分布式AI协作的团队值得关注。

原文

5月20日

10:29

arXiv cs.AI@Gioele Molinari, Florian Felten, Soheyl Massoudi, Mark Fuge

精选72°

EngiAI 是一个针对大型语言模型（LLM）在工程设计任务中应用的多智能体框架与基准套件。该基准包含三个评估维度：工作流基准（7种提示风格，涵盖直接工具使用、语义消歧、条件分支等）、检索增强生成（RAG）基准（通过门控评分隔离检索对参数选择的贡献）以及高性能计算（HPC）基准（评估SLURM集群上的端到端ML训练编排）。EngiAI 参考实现基于LangGraph，通过监督架构协调7个专业智能体，统一拓扑优化、文档检索、HPC作业编排和3D打印机控制。在Beams2D问题上，专有模型平均任务完成率达96-97%，而开源4B参数模型为55-78%，条件分支任务最具挑战性（Photonics2D上完成率降至20-53%）。RAG门控验证了检索增强评分接近完美（≈1.0），而无检索时接近零，HPC编排中一个模型100%完成所有步骤，另一个仅50%，揭示了多步骤指令遵循在长工作流中会退化。

论文多智能体系统工程设计基准测试 LangGraph RAG

推荐理由：做工程设计自动化或LLM多智能体系统的开发者，这个基准能帮你精准定位模型在条件分支、RAG和HPC编排上的短板，建议直接参考EngiAI框架来测试自己的方案。

原文

5月15日

09:57

arXiv cs.AI@Licong Xu, Thomas Borrett

精选

这篇论文提出了两个面向宇宙学的AI智能体系统：CMBEvolve通过LLM引导的代码进化和树搜索，针对有明确量化目标的任务（如弱引力透镜图中的异常检测）进行优化；CosmoEvolve则构建虚拟多智能体研究实验室，用于开放式的科学工作流（如自主分析ACT DR6数据）。初步实验显示，CMBEvolve能通过代码进化迭代提升基准分数，CosmoEvolve能识别非平凡的成对和尺度依赖行为并生成分析级诊断。这项工作展示了宇宙学如何为AI科学家系统的开发提供可控基准和真实开放研究问题。

论文 AI智能体宇宙学代码进化多智能体系统科学发现

推荐理由：宇宙学研究者终于有了能自主推进发现的AI工具——CMBEvolve和CosmoEvolve分别解决了定量优化和开放式探索两大痛点，做数据分析或理论建模的团队可以直接参考其方法。

原文

5月14日

13:36

EleutherAI@AiEleuther

论文智能体 AI安全潜意识提示多智能体系统 EleutherAI

推荐理由：这项研究戳中了当前 AI 部署的盲点——当智能体相互交互时，潜意识提示可能像病毒一样传播，做多智能体系统或 AI 安全的人值得点开看看。

原文

5月12日

19:11

arXiv: Anthropic@Xinyu Zhang, Zhicheng Dou, Deyang Li, Jianjun Tao, Shuo Cheng, Ruifeng Shi, Fangchao Liu, Enrui Hu, Yangkai Ding, Hongbo Wang, Qi Ye, Xuefeng Jin, Zhangchun Zhao

随着AI工程从单智能体转向多智能体协调工程，如何将多智能体协作协议编码为可移植资产成为关键瓶颈。Swarm Skills 提出了一种扩展自 Anthropic Skills 标准的可移植规范，将多智能体工作流（包括角色、流程、执行边界和自进化语义结构）变为一等公民。配套的自进化算法基于有效性、利用率和新鲜度等多维评分，自动从成功执行轨迹中提炼新技能并修补现有技能，无需人工干预。通过架构兼容性分析和 JiuwenSwarm 参考实现案例，展示了零适配器的跨智能体可移植性，避免框架锁定。该工作为多智能体系统提供了可分享、可自我改进的协作基础。

论文智能体多智能体系统协调工程自进化开源/仓库

推荐理由：解决了多智能体协作无法跨系统共享和自主改进的核心问题，为协调工程提供标准化的可移植规范和自进化机制，对构建灵活、自适应的多智能体系统具有实际指导意义。

原文