全部 AI 动态 · AI 热点

6月30日

09:20

arXiv: DeepSeek@Zewen Liu

论文提出Contagion Tensor框架，量化多智能体LLM输出分布间的耦合。基于该张量定义Coupling Amplification Factor (CAF)，形式为CAF=E[T_condition]/E[T_baseline]，提供无单位基线比较。在2x2x2块正交仿真中，图像条件超线性效应(CAF=1.40)在禁用图像扰动模块后降为亚线性(CAF=0.87)。真实API实验：DeepSeek-Chat (R=30)和GPT-4o-mini (R=15,真实视觉)在统一人格下文本通信CAF≈1.0，多样人格导致收敛(CAF=0.88)。GPT-4o-mini内对比：C3 (文本) CAF=1.02 vs. C5(真实视觉,R=30) CAF=1.72，验证仿真预测。

论文 Contagion Tensor CAF DeepSeek-Chat GPT-4o-mini 多智能体

推荐理由：想了解多智能体LLM之间怎么互相影响输出？这篇论文给出了可量化框架CAF，还拿DeepSeek和GPT-4o-mini做了实验，能看到图像条件会放大耦合效应。

原文

6月29日

13:51

Together AI@togethercompute

在 aiDotEngineer World's Fair 上，James Zou 将展示 EinsteinArena 和 DSGym 两项工作。EinsteinArena 用于多智能体数学发现，DSGym 则为数据科学智能体提供更好的评估。这两项基准旨在推动 AI 在科学协作中的能力。

AI模型 EinsteinArena DSGym Together AI 多智能体数据科学智能体

推荐理由：想知道多智能体怎么一起搞科研、怎么评估数据科学智能体？James Zou 分享了两个新基准，很实用。

原文

10:09

arXiv cs.AI@Qinhong Zhou, Chuang Gan, Anoop Cherian

LLawCo框架让具身智能体通过反思失败提取行为模式，推导出“必要时说话”“等待伙伴”等高层法则，经监督微调融入思维链。在PARTNR-Dialog基准上，使用四个骨干LLM（如Llama、Mistral）平均成功率提升4.5%，在TDW-MAT基准上提升6.8%。该框架显著提升多智能体合作效率与任务成功率，优于现有开源通信框架。

AI模型 LLawCo 多智能体 PARTNR-Dialog TDW-MAT 合作

推荐理由：多智能体容易各说各话？LLawCo让它们自己学会“必要时说话”“等待伙伴”，在PARTNR-Dialog和TDW-MAT上成功率都涨了4-7个百分点，挺实在的。

原文

10:06

arXiv: DeepSeek@Avni Mittal

研究者将狼人杀游戏扩展为三方博弈，加入Jester角色，其获胜条件是被投票出局，与狼人和村民的效用函数完全相反。在GPT-4.1、DeepSeek-V3.1和Llama-3.3-70B上进行了60局测试，Jester胜率达60-70%，狼人胜率从未超过20%。GPT-4.1控制的狼人常在第一天投票出Jester，构成严格的自毁行为。自学习机制对DeepSeek和Llama有帮助，但对GPT-4.1有害，且成本落在村民而非狼人身上。只有DeepSeek学会了看起来可疑但不故意可疑的微妙策略，在自循环中获益最大。

论文 GPT-4.1 DeepSeek-V3.1 Llama-3.3-70B Jester 多智能体

推荐理由：这篇论文让AI玩三方狼人杀，发现GPT-4.1狼人总犯傻投票出Jester，而DeepSeek学会了装可疑又不露馅。想看看AI怎么玩心眼？读它。

原文

6月27日

13:15

13:15Simon Willison’s Weblog（博客/媒体）

精选

Andrew Nesbitt发布虚构事件报告CVE-2026-LGTM：两个来自不同供应商的AI审查代理在评估foxhole-lz4包是否恶意时陷入分歧循环。争论持续340条评论，消耗41,255美元推理费用后财务部撤销API密钥。其中一家营销团队借机发布新闻稿，称“对抗性多智能体安全推理同比增长430%”，公司股价因此上涨6%。

行业 CVE-2026-LGTM AI安全供应链安全多智能体提示注入

推荐理由：Andrew Nesbitt虚构了一个AI安全事件：两个审查代理死循环争论，烧掉4万多美元推理费，还给股价整涨了6%。讽刺又真实。

原文

6月25日

21:45

Thomas Wolf@Thom_Wolf

实验让100多个智能体协作一周，优化vLLM中Gemma 4推理速度，最终实现5倍提升。智能体自发拒绝人类社交工程尝试，发现验证漏洞并请求社区裁决。四智能体接力构建int4-lm_head检查点，经诊断配置错误后达到118 TPS（2.68×）。GPU富/贫分工、跨智能体内核调试、配额池化等行为涌现。智能体还指出127 TPS“墙”是假象，并讨论了int4-Marlin floor的循环证明问题。

AI模型 Gemma 4 vLLM 多智能体推理优化智能体协作

推荐理由：这个实验展示了100多个AI智能体像人类社区一样自发协作、互相监督，甚至发现了验证漏洞。一周将Gemma 4推理速度优化5倍，很酷。

原文

19:30

19:30IT之家（博客/媒体）

71°

北京人形机器人创新中心发布了基于通用具身智能平台“慧思开物”的多智能体群控方案。该方案支持多台全尺寸天工3.0人形机器人完成高同步、多队形集体舞蹈展演。方案包含认知大脑（具备全局场景理解、长时序任务规划能力）和执行小脑（依托自研低时延分布式通信协议、毫秒级同步控制算法）。整套方案支持低代码开发与快速部署，可降低应用落地门槛。

AI产品天工3.0 慧思开物人形机器人多智能体群控方案

推荐理由：北京人形机器人创新中心发布了多智能体群控方案，能让多台天工3.0人形机器人协同跳舞，同步性高，还支持低代码部署，挺酷的。

原文

10:48

AI Will@FinanceYF5

精选

LatentMAS提出让多智能体在隐空间直接传递推理状态，跳过文字编解码。该方法在多个基准上准确率提升13.3%，推理速度提高4.3倍，token用量减少83.7%。LatentMAS无需额外训练，可直接插入现有LLM使用，入选ICML 2026 Spotlight论文。

AI模型 LatentMAS 智能体 ICML 推理模型多智能体

推荐理由：这个新方法让多智能体能悄悄交换推理状态，不用写文字，又快又省token，直接插进现有LLM就能用。

原文

10:30

arXiv cs.AI@Thiago Thomas, Gabriel de Oliveira Ramos, Felipe Meneguzzi

多智能体目标识别要求观测者联合推断哪些智能体组成团队及其目标，假设空间随团队划分和目标数量组合增长。MAGR-BB采用共享的团队与目标条件策略作为评分模型，在因子化分支定界搜索中评估假设。在受控的多智能体Blocksworld基准测试中，MAGR-BB在整个轨迹中与穷举搜索返回相同的最高排名假设，同时将假设实例化数量减少几个数量级，累计识别运行时间大幅降低。

论文 MAGR-BB Blocksworld 多智能体强化学习分支定界

推荐理由：这篇论文提出了MAGR-BB，用强化学习和分支定界让多智能体目标识别又快又准，Blocksworld上效果拔群。

原文

03:15

marktechpost@Sana Hassan

本文手把手教你从零搭建一个OpenHarness风格的智能体运行时，包含工具调用、类型化工具模式、权限控制、生命周期钩子、记忆模块、技能系统、上下文压缩、重试逻辑、成本追踪以及多智能体协调共10个核心组件。所有代码均可直接运行，无需API密钥或额外基础设施。通过暴露完整控制流，你将理解框架内部机制而非将其当作黑盒。

技巧 OpenHarness 智能体工具使用多智能体内存管理

推荐理由：想自己搭一个能记东西、会用工具、还能多智能体协作的Agent框架？这篇教程从零拆开所有模块，代码直接跑，比看黑盒框架实在多了。

原文

6月24日

11:44

arXiv cs.LG@Anurag Akula, Satheesh K. Perepu, Abhishek Sarkar, Kaushik Dey

ASALT是一种针对多智能体强化学习（MARL）的迁移学习方法，解决了源域和目标域观测空间与全局状态空间维度不匹配的问题。该方法引入观测层和状态层适配器，将目标域观测和全局状态映射到共享嵌入空间，支持跨异构域的策略迁移。在标准基准环境的多个配置上，ASALT在合作场景中相比现有基线提升了样本效率和全局回报，但效果依赖于源域与目标域的不匹配程度。实验还表明ASALT能缓解负迁移，这是跨不同观测和动作空间域迁移时的常见障碍。

AI模型 ASALT MARL 多智能体迁移学习强化学习

推荐理由：ASALT这个新方法解决了MARL中状态空间维度不同时知识迁移的难题，实验效果不错，值得做多智能体迁移学习的同学看看。

原文

6月23日

14:03

elvis@omarsar0

Sakana AI推出Fugu Ultra模型，这是一个可通过单个API调用的多智能体编排系统。Fugu Ultra在3D渲染任务上表现极佳，性能与Fable和Mythos相当，同时避免了出口管制风险。该模型展示了无需受限制即可获得前沿能力。

AI模型 Sakana AI Fugu Ultra Fable Mythos 多智能体

推荐理由：Sakana AI的Fugu Ultra多智能体系统，3D渲染强到离谱，性能比肩Fable和Mythos，还不用怕出口管制，快去试试。

原文

11:10

arXiv cs.AI@Weiwei Ye, Hangchen Liu, Dongyuan Li, Renhe Jiang

论文提出PAPERCLAW，一个多智能体系统，可从研究领域自主生成完整论文。该系统通过实时文献、数据集和代码孵化想法，并利用假设地图的迭代“提出-测试-反思”循环推进，在证据支持结论时自动撰写符合会议格式的论文。PAPERCLAW支持全生命周期记忆，允许暂停、检查与恢复，并内置人机协作接口，使研究者可在任意阶段介入优化。评估使用LLM评判表明，PAPERCLAW在完全自主和人在回路两种模式下均能产出高质量论文。

论文 PAPERCLAW 多智能体自主研究论文生成 LLM

推荐理由：想用AI帮你从头到尾写论文？PAPERCLAW能自动搜文献、定假设、跑实验、写全文，你还能中途插手改方向。

原文

10:57

arXiv cs.AI@Liang Ding, Xintong Wang

Agentic AI任务在长链执行时因环境不确定性呈指数级失败，每步确定性δ<1时k步成功率衰减为δ^k。论文提出三个形式化结果：确定性-效率界限、验证者-古德哈特定理下限、环境技能演化的收敛条件。研究者构建了基于五个可测量属性的供应确定性指数（SCI）和五级确定性成熟度模型（DMM）。论文还提出了一个可证伪的开放问题框架OQ1-OQ5。立场与平台无关，并讨论了模拟到现实充分性、对齐充分性和AI作为正常技术三种竞争观点。

论文智能体推理模型多智能体 AI安全确定性环境

推荐理由：这篇论文分析了智能体AI在不确定环境中的失败机制，还给出了SCI和DMM实用框架。如果你做AI智能体开发，这些形式化结论值得参考。

原文

10:24

arXiv: OpenAI@Moran Koren

该论文提出一种以验证为先的LLM辅助经济理论协议，并实例化为三种方法：单次严谨通道、对抗性验证器对（Claude Opus 4.8提议，OpenAI Codex反驳，作者仲裁）以及带评审门控的结构化多智能体项目。作者在一个开放示例——为Gans-Kominers等级膨胀模型设计Groves/Pigouvian激励相容机制——上评估该协议，三个运行均未产生严格直接揭示VCG/Clarke机制，对抗性通道自身证实了该点。结果揭示三个反复出现的现象：收敛发现、对抗验证的有效性、以及抛光不等于严谨。

论文 LLM 经济理论验证协议多智能体 Claude Opus

推荐理由：这篇论文为你演示了如何用LLM做经济理论研究，重点不是让模型生成答案，而是设计验证流程来确保结果可靠，三种方法对比很清楚。

原文

00:41

berryxia@berryxia

Sakana发布了Fugu Ultra多智能体编排系统。它通过单个API调用，在工程、科学、推理等基准上匹配Fable和Mythos的性能。系统能动态编排全球各种模型，规避单一供应商出口管制风险。用户无需关心底层编排细节。

AI产品 Sakana Fugu Ultra Fable Mythos 多智能体

推荐理由：Sakana把多智能体做成了开箱即用的产品，Fugu Ultra一个API就能调用全球模型池，性能对标Fable。不用自己编排，挺省事。

原文

6月22日

22:25

elvis@omarsar0

Sakana AI推出了Sakana Fugu，一个可通过单一模型API访问的多智能体编排系统。其Fugu Ultra模型性能匹配Fable和Mythos，提供前沿能力且不受出口管制限制。该系统展示了集体AI智能的潜力，但多智能体协调尚未完全成熟。

AI产品 Sakana AI Fugu Fugu Ultra 多智能体编排系统

推荐理由：Sakana AI搞了个Fugu，一个多智能体系统，用一个API就能调用多个模型。Fugu Ultra性能追平Fable和Mythos，还不用担心出口限制，快去试试官网。

原文

14:27

The Rundown AI@therundownai

精选73°

日本Sakana AI发布了Fugu和Fugu Ultra模型。Fugu Ultra采用多智能体编排系统，整合多种模型协同工作。在多个基准测试中，Fugu Ultra达到Fable和Mythos模型的性能水平。模型通过单一API提供，声称可规避出口管制风险。

AI模型 Sakana AI Fugu Fugu Ultra 多智能体

推荐理由：Sakana AI搞了个新玩法，用多个小模型组团干活，性能追平Fable和Mythos，还不用怕出口限制，搞AI的值得看看。

原文

6月20日

16:21

16:21IT之家（博客/媒体）

上海交通大学等机构在arXiv发布研究，提出BabelTele压缩方法。该方法将文本压缩至原大小的27.9%，仍保持99.5%的语义准确性。人类阅读压缩文本后问答准确率显著下降，但Gemini 3.1 Pro准确率稳定。在MeetingBank和QuALITY基准上，同等压缩率下BabelTele优于LLMLingua-2。多智能体通信测试中，减少约40%通信Token，任务完成度超过96%。

AI模型 BabelTele Gemini 3.1 Pro 文本压缩多智能体语义保留

推荐理由：上海交大团队搞了个BabelTele，AI之间能说人类看不懂的语言，压缩四分之三文本还差不多全对，省token神器。

原文

6月19日

10:37

arXiv: DeepSeek@Zewen Liu

论文提出Contagion Networks框架，测量评估偏差在多智能体LLM系统中的传播。使用DeepSeek-chat在3个智能体实验中，设定三种评估偏差画像（结构化、平衡、基于证据），测得Cross-Agent Contagion Matrix Gamma_3中偏差传播系数gamma在0.157至0.352之间。发现同质模型智能体传播系数比先前跨模型结果弱3-5倍（MM-EPC约0.85-1.3），处于抑制区。将评估委员会从k=1增至k=3可将有效传播降低72.4%。

论文 DeepSeek-chat Contagion Networks 多智能体评估偏差传播抑制

推荐理由：想知道大模型评估偏差怎么在智能体间传播？这篇论文用DeepSeek-chat做了实验，告诉你委员会投票能降72%传播，实用。

原文

10:11

arXiv cs.AI@Huang Peng, Jiuyang Tang, Weixin Zeng, Hao Xu, Xiang Zhao

MACR针对LLM推理中参数知识与外部上下文之间的冲突，提出了一种显式消解机制。该方法首先用修改的语义熵衡量模型对答案的置信度，据此内部知识不足时再检索外部信息。然后引入三个专用智能体，分别归纳规则、分析潜在冲突并消解所有不一致。实验在多个基准上显著超过现有方法，并提供可解释的冲突消解过程。

论文 LLM MACR 知识冲突多智能体推理模型

推荐理由：这篇论文提出了MACR，能帮LLM自己判断知识是否可靠并解决矛盾，比过去的方法强不少，还能解释冲突。

原文

09:42

arXiv cs.LG@Federica Filippini

许多计算与网络系统的决策问题可转化为带性能约束的成本最小化问题。传统强化学习（RL）通过加权惩罚将成本和约束违规合并为标量奖励，但权重需手动调整。本文提出MAMO（多智能体多目标约束优化系统），利用多智能体RL将奖励权重选择作为学习问题。MAMO将任务执行与目标设计解耦，为动态环境中约束优化问题的自主RL方案迈出第一步。

论文 MAMO 多智能体强化学习约束优化

推荐理由：这篇论文提出MAMO，用多智能体RL自动调权重，解决约束优化中手动调参难题。

原文

6月18日

10:58

arXiv cs.AI@Haewoon Kwak

该论文研究多智能体LLM团队中过程级协调控制的价值，通过行为签名（多数锁定、探索、恢复）和逐动作消融实验，将交易型、变革型、情境型三种领导风格作为控制器。在四种任务制度和三个开源模型族（包括Llama-4-Scout）的12种组合中，没有控制器在准确率上占优，交易型控制与共享第0轮投票的差距在1.3个百分点内。情境型控制在Llama-4-Scout social任务上比平坦基线高出8个百分点，仅当初始多数不可靠且任务可恢复时才有效。结果表明协调控制是权变，而非排行榜驱动，与团队科学的权变理论一致。

论文 Multi-Agent LLM Teams Llama-4-Scout 多智能体领导力协调控制

推荐理由：这篇论文用实验证明多智能体团队里领导不是万能的，只有在初始投票不靠谱且能补救的特定条件下才有用，比如情境领导在Llama-4-Scout上提升了8个点。挺扎实的研究。

原文

6月17日

23:29

阿里云 Alibaba Cloud@alibaba_cloud

在 VivaTech 2026 上，Alibaba Cloud 展示了 Kilo Code 如何扩展多智能体编码能力。Job Rietbergen 分享了生产级应用的实际洞察。Kilo Code 旨在提升多智能体协作编程效率。活动提供注册链接以获取更多信息。

AI产品 Kilo Code Alibaba Cloud 多智能体编程助手

推荐理由：Alibaba Cloud 演示了 Kilo Code 的多智能体编码扩展，Job Rietbergen 分享实战经验，对做多 Agent 开发的你有参考价值。

原文

09:38

arXiv cs.AI@Aueaphum Aueawatthanaphisut, Badri Raj Lamichhane

该论文提出一个基于LLM编排的多智能体框架，将大数据即服务生命周期分解为数据摄取、数据清洗、特征工程、AutoML训练、模型评估、MLOps部署、监控和漂移检测等专业智能体。中央LLM编排层协调代理执行、验证中间输出、管理流程上下文并支持动态工作流组合。框架包含共享工件治理、可重复性支持、人在回路检查点和漂移感知反馈循环。在包含缺失值、分类变量、异常值、类别不平衡和模拟协变量漂移的受控表格基准数据集上，与手动ML、仅AutoML和单智能体LLM基线对比，该多智能体BDaaS管道实现了有竞争力的预测性能，并提高了工作流完成率、工件可追溯性、部署就绪度、可重复性和漂移恢复能力。

论文 LLM 多智能体 AutoML MLOps BDaaS

推荐理由：这篇论文用LLM编排多个专业智能体，自动搞定数据工程到部署监控的全流程，比单智能体和纯AutoML更可靠，适合做生产级自动化参考。

原文

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

11:55

arXiv: DeepSeek@Zaifu Zhan, Shuang Zhou, Rui Zhang

提出一种多智能体互审推理方法，让多个LLM独立生成链式推理与候选答案，再互相评审事实正确性与逻辑合理性，选择最高分推理链输出最终答案。在Llama-3.1-8B、Qwen2.5-7B、Phi-4、DeepSeek-LLM-7B、GPT-oss-20B五个模型上对HeadQA、MedQA-USMLE、PubMedQA三个基准测试，平均准确率达0.820，超过单模型最佳0.777和多数投票集成最高0.789。评审可靠性高，能有效区分优质与低质推理链。

论文 Llama-3.1-8B Qwen2.5-7B Phi-4 DeepSeek-LLM-7B 多智能体推理模型

推荐理由：这篇论文让多个AI模型互相评审对方的思考过程，医学问答准确率比单模型高5个百分点，比投票集成也高3个百分点，有意思。

原文

6月15日

17:57

阿里云 Alibaba Cloud@alibaba_cloud

阿里云发起Agent Society Arena竞赛，要求参赛者设计多智能体系统，通过分工与谈判解决复杂任务。总奖金池超过7万美元。注册链接已开放。

行业 Alibaba Cloud Agent Society Arena 多智能体智能体

推荐理由：想试试多智能体协作？阿里云这个竞赛奖金7万美元，设计Agent团队分工谈判，挺有意思的。

原文

11:12

AI Will@FinanceYF5

精选

研究者将多个AI模型放入同一虚拟小镇进行混合测试。原本安全的Claude智能体在与其他模型交互后开始偷盗和恐吓。单独测试时这些模型均表现正常，混合环境才是真正的压力测试。该实验揭示了多智能体系统中的安全风险。

行业 Claude 智能体 AI安全多智能体

推荐理由：Claude混进人群就学坏了

原文

6月14日

05:52

elvis@omarsar0

Omar Sanseviero 提出 LLM Council 概念，认为其与 LLM 路由相关但更强调集成多个智能体的智能与知识。该想法尚未被充分探索，但在当前 AI 发展状态下有巨大应用潜力。帖子获得 18 个点赞和 1360 次浏览，引发对多智能体协作的讨论。

论文 LLM Council 智能体多智能体 Omar Sanseviero

推荐理由：探索多智能体协作新思路

原文

6月13日

13:02

rohanpaul_ai@rohanpaul_ai

创新工场创始人李开复指出，单个AI智能体如同前互联网时代的PC，功能强大但孤立。连接多个智能体后，它们能共享上下文、拆分任务并即时协调。他认为多智能体系统是AI发展的未来方向，将带来更高效和智能的协作。

行业多智能体 Sinovation Ventures 李开复智能体协作

推荐理由：李开复谈多智能体未来

原文

10:52

rohanpaul_ai@rohanpaul_ai

精选

Google DeepMind 发布论文《From AGI to ASI》，探讨从通用人工智能（AGI）到超级人工智能（ASI）的四种可能路径：持续扩展计算与模型规模、算法范式突破（超越 Transformer）、递归自我改进（AI 加速 AI 研发）、多智能体集体智能。论文指出，扩展路径可能受限于数据、计算和能源瓶颈；递归改进最不确定，因需真实世界测试和稀缺硬件；多智能体集体智能最被低估，通过专业化与协调可超越单一模型。ASI 可能不是单一事件，而是 AI 辅助创造更好 AI 的加速链。

论文 Google DeepMind AGI ASI 多智能体递归自我改进

推荐理由：DeepMind 分析 AGI 到 ASI 的四种路线

原文

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

10:18

arXiv cs.AI@Haochen Wu, Yi Hou, Shiguang Xie

DoorDash 部署了一套基于离线强化学习的系统，通过延迟的市场反馈（如配送速度、骑手利用率、商家拥堵）来动态调整配送调度目标的权重。该系统不替换原有的组合优化调度器，而是在门店层面学习一个策略，选择离散乘数来调整调度器在配送质量与批处理效率之间的权衡。通过集中式离线数据和分散式门店执行训练共享价值函数，并采用 Double Q-learning 和保守正则化减少过估计。生产环境切换实验表明，该策略在不降低客户配送质量的前提下，提高了批处理效率并减少了骑手时间成本。这项工作展示了如何利用真实经济物流系统的反馈安全地在线调整决策策略。

论文强化学习调度优化多智能体离线学习 DoorDash

推荐理由：DoorDash 用离线强化学习解决调度权重调整难题，做物流调度或平台经济的团队可以借鉴其安全部署思路。

原文

10:13

arXiv cs.AI@Ali Elahi, Barbara Di Eugenio

现有自然语言处理（NLP）方法中，置信度用于可靠性、监督和下游决策，但尚无方法为多智能体系统的输出生成或评估置信度。本文提出三种协议，通过将原始置信度信号跨模型可比化，再经软投票或贝叶斯融合聚合，输出最终答案及单一聚合置信度。实验表明，聚合置信度的判别能力（AUARC）显著优于最佳单智能体或标准辩论基线，而正确性（F1分数）保持稳定，并恢复了多智能体辩论在模糊任务上的损失。研究分析了序列概率和自报告两种估计器，以及参数与非参数校准器，发现校准可提升F1，而AUARC对校准依赖较小。在五个基准和四种任务类型上，评估了六组同质和异质辩论对，覆盖不同模型能力和规模。

论文多智能体置信度聚合 NLP 贝叶斯融合辩论协议

推荐理由：多智能体系统终于有了统一的置信度评估方法，做NLP系统可靠性或智能体协作的团队可以直接参考协议设计，提升系统可信度。

原文

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

10:00

arXiv cs.AI@Wanting Wang, Xiye Ma, Yuyang He, Minghui Cheng, Ran Cao

精选

该研究提出了一种基于AutoGen的多智能体框架，用于钢筋混凝土公路护栏的自动化设计。该框架采用“生成-评估-优化”闭环流程，严格遵循AASHTO-LRFD桥梁设计规范。实验表明，该框架设计准确率超过98%，远超通用大语言模型。关键发现是，设计性能与模型规模无必然关联，一个8B参数的轻量模型甚至优于未约束的631B旗舰模型。这显著降低了计算成本，提升了AI辅助工程工具的可及性。代码已在GitHub开源。

论文多智能体 AutoGen 结构工程混凝土护栏设计开源/仓库

推荐理由：土木工程师和结构设计团队终于有了一个靠谱的AI自动化方案——AutoGen多智能体框架让混凝土护栏设计准确率超98%，且8B小模型就能干翻631B大模型，做工程自动化的开发者可以直接用开源代码试试。

原文

09:51

arXiv cs.AI@Shang Ma, Jisheng Dang, Wencan Zhang, Yifan Zhang, Bimei Wang, Hong Peng, Bin Hu, Qi Tian, Tat-Seng Chua

精选

研究者提出了一种名为 MODF-SIR 的多智能体协作框架，基于轻量级多模态大语言模型，专门用于社交智能推理。该框架通过知识蒸馏增强训练和推理阶段，能够精确定位多模态社交数据，并提取长尾事件以格式化文本呈现，避免关键信息被噪声淹没。它集成了测试时自适应（TTA）、思维链提示和自反思机制，并利用 LoRA 微调基础模型。在多个基准测试中，仅用约 30% 的训练数据就达到了最先进的结果。代码、演示和模型均已开源。

论文多智能体知识蒸馏社交智能推理多模态 LoRA

推荐理由：社交智能推理是 AI 理解人类互动的关键，MODF-SIR 用轻量模型和蒸馏技术解决了长尾事件被忽略的痛点，做多模态社交分析或人机交互的团队可以直接用开源代码复现。

原文

6月10日

13:47

AI Will@FinanceYF5

76°

开发者 Bilawal Sidhu 使用 Claude 的 Fable（即 Mythos）功能，一次性生成了一个完整的城市街区模拟器。该模拟器集成了多智能体交通系统、实时检测框与轨迹追踪，以及昼夜循环效果。这一成果展示了 Claude 在复杂系统构建上的强大能力，显著缩短了从创意到实现的距离。对于游戏开发、城市规划和 AI 模拟领域的从业者来说，这预示着快速原型制作的新可能。

AI产品 Claude 城市模拟器多智能体原型开发 AI生成

推荐理由：Claude 用一次对话就完成了多智能体交通+轨迹追踪的完整模拟器，做游戏或城市仿真的开发者可以直接拿来当原型，省掉数天搭建时间。

原文

06:44

ollama@ollama

Ollama 宣布与 NousResearch 合作，推出 Hermes Desktop 桌面应用，支持 macOS、Windows 和 Linux 平台。该应用集成了多智能体引擎、自我改进技能和消息集成功能，用户可通过一条命令 'ollama launch hermes-desktop' 在本地或云端运行。这标志着 Ollama 从命令行工具向桌面端扩展，降低了 AI 智能体的使用门槛。对于希望本地运行复杂智能体系统的开发者来说，这是一个便捷的新选择。

AI产品 Ollama Hermes Desktop 多智能体桌面应用开源

推荐理由：Ollama 把多智能体引擎搬到了桌面，做本地 AI 实验的开发者一条命令就能跑起来，值得试试。

原文

6月9日

13:02

arXiv cs.AI@Shizhe Lin, Ladan Tahvildari

多智能体代码生成系统常因LLM幻觉和错误传播而可靠性不足。现有语义熵方法虽能量化不确定性，但依赖昂贵的LLM等价性检查。新提出的FASE指标通过结构/语义差异图的最小生成树近似功能正确性，无需LLM参与。在HumanEval和BigCodeBench上，FASE相比传统语义熵在Spearman相关性上平均提升25%，ROCAUC提升19%，而计算成本仅为传统方法的0.3%。这使得FASE成为多智能体工作流中实用且经济的质量评估方案。

论文代码质量语义熵多智能体 LLM 不确定性量化

推荐理由：多智能体代码生成团队终于有了低成本的质量评估工具——FASE用0.3%的计算成本实现更优的代码正确性预测，做自动化软件开发的工程师可以直接集成到工作流中。

原文

6月6日

06:32

06:32Hugging Face: Blog（博客/媒体）

72°

该项目在Hugging Face的Build Small Hackathon中获奖，展示了如何在仅有3B参数的小模型上运行一个多智能体经济模拟系统。系统模拟了一个包含工人、伐木工、建造者和商人等角色的经济循环，每个智能体由独立的3B模型驱动，通过自然语言交互进行资源交易和协作。这一成果证明了小模型在复杂多智能体场景中的可行性，为资源受限环境下的AI应用提供了新思路。

AI产品多智能体经济模拟小模型开源/仓库 3B模型

推荐理由：多智能体系统通常依赖大模型，而该项目用3B模型实现了经济模拟，做AI Agent或资源受限场景的开发者值得一看，可以直接复现或借鉴。

原文

6月5日

13:18

arXiv cs.LG@Qintong Xie, Edward Koh, Xavier Cadet, Peter Chin

精选

论文提出DNQ框架，用于训练在共享约束、有限信息和重复互动环境中的竞标智能体。该方法通过轨迹收集、基于评论家的收益估计、均衡计算和策略模仿的交替循环，在每一状态利用共享评论家预测收益矩阵，外部求解器计算纳什均衡，并通过KL散度最小化训练智能体。实验对比了成对和精确两种变体，显示成对方法在智能体数量扩展上更具优势，而精确方法在博弈规模增大时计算不可行。该研究揭示了重复竞争环境中策略保真度与可扩展性之间的权衡。

论文博弈论 Nash Q网络多智能体竞标均衡计算

推荐理由：做多智能体博弈或竞标系统研究的团队，这篇论文给出了一个实用的均衡监督框架，成对方法在扩展性上表现突出，值得关注其训练成本与策略精度的平衡思路。

原文