AITP
精选全部 AI 动态AI 日报Agent 接入关于更新日志信源提报反馈
登录 / 注册
AITOP
全部 AI 动态
AI 相关资讯全量信息流
全部博客资讯推文论文
全部模型产品行业论文技巧
标签:DeepSeek-chat×
6月19日
10:37
10:37arXiv: DeepSeek@Zewen Liu
论文提出Contagion Networks框架,测量评估偏差在多智能体LLM系统中的传播。使用DeepSeek-chat在3个智能体实验中,设定三种评估偏差画像(结构化、平衡、基于证据),测得Cross-Agent Contagion Matrix Gamma_3中偏差传播系数gamma在0.157至0.352之间。发现同质模型智能体传播系数比先前跨模型结果弱3-5倍(MM-EPC约0.85-1.3),处于抑制区。将评估委员会从k=1增至k=3可将有效传播降低72.4%。
论文DeepSeek-chatContagion Networks多智能体评估偏差传播抑制

推荐理由:想知道大模型评估偏差怎么在智能体间传播?这篇论文用DeepSeek-chat做了实验,告诉你委员会投票能降72%传播,实用。
原文
6月16日
20:46
AITOP6月16日 20:46
600亿美元买下Cursor,xAI终于拿到了编程工具,但真正值得跟踪的或许不是AI600亿美元买下Cursor,xAI终于拿到了编程工具,但真正值得跟踪的或许不是AI
10:48
10:48arXiv: DeepSeek@Zewen Liu
论文发现,当AI智能体使用语言模型在反馈循环中自我评估时,会产生系统性偏好偏差。在多模态环境中,评估者偏好崩溃(EPC)被显著放大:用GPT-4o评估DeepSeek-chat时,单一策略step_by_step吸收48.4%权重,是纯文本自评估崩溃程度的3.2倍,而三个视觉域策略合计仅占9.1%。跨模态传染现象揭示:在一个模态获得的评估者偏好会转移到另一个模态并扭曲策略选择。四阶段隔离训练实验测量了传染系数,并发现跨模态暴露后最优策略发生反转。在53次独立重复、15,592次API调用统计中,跨模型评估产生强对称双向传染(均值γ_{T->V}=1.176, γ_{V->T}=1.089),而自评估(DeepSeek-chat)97%运行传染为零。
论文GPT-4oDeepSeek-chat多模态评估者偏好崩溃跨模态传染

推荐理由:这篇论文用GPT-4o和DeepSeek-chat做实验,发现AI自我评估时策略偏好会崩坏,还跨模态传染,数字很硬核,搞多模态和智能体的值得看。
原文
6月12日
12:57
AITOP6月12日 12:57
Claude代码里藏了个20260612,18个月后的AI记忆革命已经开始倒计时
6月11日
15:28
AITOP6月11日 15:28
1107 vs 303:谷歌悄悄开源了一个“拆打字机”的模型,把大模型速度翻了4倍
15:23
AITOP6月11日 15:23
DiffusionGemma颠覆文本生成?自回归模型的“统治”要结束了
15:07
AITOP6月11日 15:07
每秒1107个token,Google开源的扩散模型为什么能改变本地推理格局?
精选全部日报登录