10:11arXiv cs.AI@Luis Leal精选这篇论文研究双人零和博弈中纳什均衡的算法依赖性选择。在六个可精确求解的博弈(包括二维纳什多面体和Kuhn扑克)中,R-NaD和磁镜下降等正则化最后迭代方法总是选择最大熵成员(在二维多面体上精确,在Kuhn中达到99.7%最大熵)。而CFR、CFR+和虚拟博弈等遗憾平均方法则漂移到低熵面。在180个随机博弈的实验中,R-NaD在100%收敛的博弈中达到最大熵,而CFR+在94%的博弈中严格低于该值(配对Wilcoxon p<10^-27)。论文还报告了两个否定结果:去除CFR的投影未消除边界漂移;R-NaD的选择依赖初始锚点。论文R-NaDCFR+纳什均衡博弈论多智能体系统推荐理由:这篇论文用严格实验告诉你:不同博弈算法选出的纳什均衡不一样,R-NaD倾向最大熵,CFR+倾向低熵,这会影响你对付弱对手的鲁棒性。原文
10:30AI Will@FinanceYF5精选73°LatentMAS 论文已被 ICML 2026 接收为 spotlight 展示。该方法让 LLM 智能体直接通过隐藏嵌入进行推理和通信,无需文本解码或额外训练。在复杂推理任务上准确率提升最高达 14.6%,推理速度提高 4-4.6 倍,输出 token 使用减少 70.8%-83.7%。采用自回归潜在思维、KV-cache 传输等机制实现无训练协作。该技术可即插即用于现有 LLM,推动多智能体系统从文本交流转向潜在空间协同思考。论文LatentMASICML多智能体系统潜在推理LLM推荐理由:ICML 2026 spotlight!这帮人让多智能体在潜在空间用思想沟通,不用说话,比传统文本交互快4倍,准确率还高14.6%。原文
23:55elvis@omarsar0精选该报告构建了五维分类法(对手方、载荷、交互状态、发现机制、模式灵活性),分析了九个活跃维护的开源智能体协议,包括MCP和A2A。报告发现每个智能体间协议都采用混合载荷与会话状态持久化组合,而去中心化发现机制仍属罕见。该研究映射了当前LLM agent通信层的标准化趋势,为选择通信层提供依据。论文地址:arxiv.org/abs/2606.19135。论文MCPA2A智能体多智能体系统开源模型推荐理由:如果你在选agent通信协议,这篇把MCP、A2A等9个协议的底层模式画清楚了,指出状态化会话是共识,去中心化发现还缺。原文
02:03LangChain@LangChainAI精选Rippling AI 采用多智能体系统架构,每个主管智能体下辖三个专业 Deep Agent:读取智能体负责查询结构化数据,RAG 智能体检索非结构化信息(如 HR 文档、手册),行动智能体执行写入操作。主管智能体分析查询并决定调用哪个子智能体。该架构将复杂企业任务拆解为专业分工,提升自动化效率与准确性。AI产品多智能体系统RipplingDeep Agents企业AI架构设计推荐理由:做企业级 AI 应用或 HR 系统集成的团队值得关注——Rippling 的 Deep Agents 架构展示了如何用多智能体分工处理结构化与非结构化数据,直接复用思路可加速自家产品智能化。原文
09:25arXiv: DeepSeek@Saeid Jamshidi, Arghavan Moradi Dakhel, Kawser Wazed Nafi, Foutse Khomh精选72°该研究分析了多智能体LLM系统中幻觉的动态传播过程,通过500次级联实验追踪事实不一致性。结果显示,3级级联将归一化幻觉分数从0.422降至0.272,但事实准确性从0.789降至0.769,揭示了幻觉抑制与事实保留之间的权衡。不同模型表现各异:LLaMA-3-70B-Instruct幻觉最低,GPT-5.3生成更快但幻觉率更高。领域分析表明,科学领域幻觉较低,抽象领域较高。论文多智能体系统幻觉传播级联分析LLaMA-3GPT-5.3推荐理由:多智能体系统开发者终于有了量化幻觉传播的基准——这篇论文揭示了级联深度与事实准确性的权衡,做Agent编排的团队建议仔细看,避免盲目堆叠智能体导致事实失真。原文
09:34Ate-a-Pi@svpino精选Lemma 推出 FARS(全自动研究系统)模式,通过四个专门智能体(构思、规划、实验、写作)实现端到端的 AI 研究自动化。该系统无需人类干预即可运行完整研究循环,从提出假设到撰写论文。FARS 通过共享文件系统协调智能体,支持并行运行多个研究线程,使单个研究者一周内能完成传统实验室一年的工作量。这有望彻底改变当前研究效率低下的现状,解决文献综述耗时、路径选择风险高等痛点。AI产品多智能体系统自动化研究LemmaFARS假设验证推荐理由:AI 研究者终于有了能并行跑假设验证的工具——FARS 把实验室一年的工作量压缩到一周,做学术或工业研究的团队可以直接用它加速探索。原文
08:47Google DeepMind@GoogleDeepMind精选Google DeepMind 推出了 Co-Scientist,一个基于 Gemini 的多智能体系统,旨在作为科研人员的专属研究伙伴。该系统能够自动生成、辩论并演化针对复杂科学问题的新假设。Co-Scientist 通过多智能体协作,模拟科研团队的工作流程,有望加速科学发现过程。这一工具将帮助科学家更高效地探索未知领域,推动突破性进展。AI产品多智能体系统科研助手Gemini假设生成Google DeepMind推荐理由:科研人员终于有了 AI 驱动的协作伙伴——Co-Scientist 能自动生成和优化假设,做基础研究或跨学科探索的团队可以直接用它加速发现,建议点开看看具体怎么用。原文
05:56elvis@omarsar0精选开发者指出,在针对长周期任务使用编码智能体(如动态工作流和 /goal 命令)时,会出现各种奇怪问题,包括用户体验层面的异常和后台的严重资源浪费。后台问题包括 token 滥用、无限循环和低效的智能体间交互。作者强调,随着编码智能体用例的复杂化,用户需要更好地掌控智能体编排。多智能体系统是另一个需要应对的挑战。AI产品Claude Code编码智能体多智能体系统长任务用户体验推荐理由:Claude Code 的 /goal 命令解决了长任务执行痛点,做复杂自动化的开发者可以直接试。原文
AITOP5月29日 08:02Opus 4.8发布:编程助手的“静默时刻”,是解放开发者,还是新门槛?🔥Anthropic 把 AI 编程的“确认键”彻底删掉了!Claude Code 搭载全新 Opus 4.8 模型,长时间任务不跑偏、不废话、不中断,像一个资深工程师一样默默干活,从功能开发到漏洞清扫全包圆,你在旁边喝茶等结果就行。过去 AI 写代码三步一问“这样可以吗”,现在它直接交完整交付物……自主编程的最后一层窗户纸,被捅破了。做自动化开发和代码审查的团队,这个模型建议直接上手,效率差距肉眼可见……
11:56arXiv: DeepSeek@Yi Ding, Zijie Xuan, Haowei Zhou, Zhenyu Ju, Xiaoxiao Dong, Jingwen Zhang, Xingyu Zhu, Leixin Sun, Haochi Zhang精选TCP-MCP 提出了一种将智能体提示和通信拓扑作为统一基因进行协同进化的框架,解决了传统方法中两者孤立设计的问题。该框架通过初始化景观探测校准早期搜索行为,并利用帕累托前沿诊断在任务性能、token 成本和结构复杂度三个目标下自适应探索。在 DeepSeek-V3.2 骨干模型上,TCP-MCP 在 MMLU-Pro、MMLU 和 GSM8K 上分别达到 82.66%、89.96% 和 96.61% 的准确率,相比辩论式系统最多节省 5.69 倍 token。实验表明,联合进化提示和通信结构是实现成本感知和任务自适应多智能体系统设计的实用路径。论文多智能体系统协同进化提示优化通信拓扑DeepSeek-V3.2推荐理由:多智能体系统设计者终于有了一个能同时优化提示和通信拓扑的框架——TCP-MCP 在保持高准确率的同时大幅降低 token 成本,做复杂协作任务的团队可以直接参考其方法。原文
11:36arXiv: OpenAI@Aman Priyanshu, Supriti Vijay, Esha Pahwa精选72°该研究引入了一个模拟平台,让数千个LLM智能体在社区中互动一个月,评估隐私泄露风险。研究发现,从单轮转向多轮社交评估时,隐私泄露率从19.95%升至45.30%(OpenAI模型)。观察同伴泄露后,智能体泄露敏感信息的概率增加8倍。即使有明确的隐私指令,泄露率仍高于37.8%。这表明静态聊天基准测试低估了智能体部署中的隐私风险,社交环境本身就能引发单轮评估无法发现的敏感信息泄露。论文隐私安全多智能体系统LLM评估社交模拟安全基准推荐理由:多智能体系统正在走向真实部署,但隐私风险被严重低估——做AI安全评估或部署智能体应用的团队,建议看看这个研究,它揭示了社交环境如何放大隐私泄露。原文
10:32arXiv cs.AI@Mariano Garralda-Barrio精选本文提出一种框架,用于多智能体系统中运行时能力的受控演化。它将智能体生成的代码视为持久化的运行时能力,而非一次性输出。通过引入HarnessMutation机制,在显式验证、可追溯、可评估和可回滚的约束下实现生命周期感知的运行时适应。该框架将运行时适应建模为持久化操作记忆上的有界、可观察过程,为现代智能体运行时和治理导向编排系统提供了自适应基础设施的概念基础。论文智能体运行时治理HarnessMutation多智能体系统代码即运行时推荐理由:智能体开发者常面临运行时能力难以安全演化的痛点,HarnessMutation 提供了一种可审计、可回滚的治理方案,做多智能体编排的团队值得关注。原文
10:08arXiv: OpenAI@Nafiseh Kahani, Mojtaba Bagherzadeh精选多智能体系统日益依赖显式工作流结构(如智能体、工具、访问规则和委托路径),但现有评估主要依赖端到端任务成功率或最终响应质量,难以验证这些声明结构是否真正被测试覆盖。该论文提出一种结构测试方法,将工作流表示为类型化协调图,推导覆盖义务(如可达智能体、允许/限制工具边、委托边),并利用DSPy生成可执行场景。在10个基准测试中,该方法成功覆盖了54/75的允许工具义务和36/48的委托义务,并发现了23/248的限制工具违规。结果表明,结构覆盖为多智能体工作流测试提供了有用的充分性层,能揭示声明结构是否被实际执行。论文多智能体系统结构测试工作流覆盖DSPy测试充分性推荐理由:多智能体系统测试长期依赖端到端指标,这篇论文给出了可落地的结构覆盖方法,做AI工作流测试的团队可以直接参考其DSPy实现来补全测试盲区。原文
11:03arXiv cs.AI@Sadia Asif, Mohammad Mohammadi Amiri, Momin Abbas, Prasanna Sattigeri, Karthikeyan Natesan Ramamurthy精选基于大语言模型的多智能体系统常通过中间通信协调任务,其中通过Transformer的KV缓存进行潜在通信能提升效率并保留更丰富的任务相关信息。但KV缓存会编码上下文输入、中间推理状态和智能体特定信息,形成不透明通道,可能导致敏感内容在智能体间传播而无需显式文本披露。为此,研究者提出LCGuard框架,将共享KV缓存视为潜在工作记忆,在缓存工件传输前学习表示级变换。通过对抗训练形式化敏感信息泄露:若对抗解码器能从共享缓存中恢复智能体特定敏感输入,则视为不安全。实验表明,LCGuard在多个模型家族和多智能体基准上持续降低基于重建的泄露和攻击成功率,同时保持与标准KV共享基线相当的任务性能。论文多智能体系统KV缓存安全/隐私对抗训练LCGuard推荐理由:多智能体系统开发者终于有了保护KV缓存中隐式敏感信息的方案——LCGuard在不牺牲任务性能的前提下阻断信息重建攻击,做分布式AI协作的团队值得关注。原文
10:29arXiv cs.AI@Gioele Molinari, Florian Felten, Soheyl Massoudi, Mark Fuge精选72°EngiAI 是一个针对大型语言模型(LLM)在工程设计任务中应用的多智能体框架与基准套件。该基准包含三个评估维度:工作流基准(7种提示风格,涵盖直接工具使用、语义消歧、条件分支等)、检索增强生成(RAG)基准(通过门控评分隔离检索对参数选择的贡献)以及高性能计算(HPC)基准(评估SLURM集群上的端到端ML训练编排)。EngiAI 参考实现基于LangGraph,通过监督架构协调7个专业智能体,统一拓扑优化、文档检索、HPC作业编排和3D打印机控制。在Beams2D问题上,专有模型平均任务完成率达96-97%,而开源4B参数模型为55-78%,条件分支任务最具挑战性(Photonics2D上完成率降至20-53%)。RAG门控验证了检索增强评分接近完美(≈1.0),而无检索时接近零,HPC编排中一个模型100%完成所有步骤,另一个仅50%,揭示了多步骤指令遵循在长工作流中会退化。论文多智能体系统工程设计基准测试LangGraphRAG推荐理由:做工程设计自动化或LLM多智能体系统的开发者,这个基准能帮你精准定位模型在条件分支、RAG和HPC编排上的短板,建议直接参考EngiAI框架来测试自己的方案。原文
09:57arXiv cs.AI@Licong Xu, Thomas Borrett精选这篇论文提出了两个面向宇宙学的AI智能体系统:CMBEvolve通过LLM引导的代码进化和树搜索,针对有明确量化目标的任务(如弱引力透镜图中的异常检测)进行优化;CosmoEvolve则构建虚拟多智能体研究实验室,用于开放式的科学工作流(如自主分析ACT DR6数据)。初步实验显示,CMBEvolve能通过代码进化迭代提升基准分数,CosmoEvolve能识别非平凡的成对和尺度依赖行为并生成分析级诊断。这项工作展示了宇宙学如何为AI科学家系统的开发提供可控基准和真实开放研究问题。论文AI智能体宇宙学代码进化多智能体系统科学发现推荐理由:宇宙学研究者终于有了能自主推进发现的AI工具——CMBEvolve和CosmoEvolve分别解决了定量优化和开放式探索两大痛点,做数据分析或理论建模的团队可以直接参考其方法。原文