10:34arXiv cs.LG@Josef Chen本研究分析了多模型LLM系统(路由、投票、级联、融合和混合智能体)的增益上限,发现任何策略的输出为单一模型答案时,准确率不能超过1减去所有模型在同一查询上都出错的比率beta。在67个来自21个提供商的模型上,开放式数学任务中beta为0.052,是高斯copula预测值0.023的约2.5倍(90%CI 1.7-3.4,k=17)。在代码执行任务中beta为0.079,GPQA-Diamond自由回答形式下beta升至0.127,且五名评审员的kappa为0.73-0.92。结论是增益来自模型在不同问题上犯错,而非增加模型数量。论文Frontier ModelsMixture-of-Agents模型组合共失败GPQA-Diamond推荐理由:这篇论文告诉你为什么堆模型不一定管用——关键是所有模型一起错的概率。67个模型测下来,数学题上这个比例5.2%,代码题7.9%,比你想象的高。别盲目加模型了,先看看共失败率。原文
10:40宝玉@dotey博主提出不要指望单一模型在所有场景最强,应像渣男一样组合使用多个模型。Opus 4.8在写作上不如GPT-5.5,但在UI设计、系统设计和计划方面表现更优。建议先用Claude Design设计UI,再分别交给GPT-5.5和Opus 4.8实现对比。每个模型有独特特性,需针对性调优提示词。AI产品Opus 4.8GPT-5.5Claude Design模型组合UI设计6 个信源在谈推荐理由:这条建议解决了AI模型选择焦虑——不用纠结哪个最好,组合用才是王道。做UI设计、系统架构的开发者可以立刻试试Claude Design+GPT-5.5/Opus 4.8的搭配,效果立竿见影。原文