跨67个前沿模型的组合LLM:共失败上限限制路由、投票与MoA增益

When Does Combining Language Models Help? A Co-Failure Ceiling on Routing, Voting, and Mixture-of-Agents Across 67 Frontier Models

精选理由

这篇论文告诉你为什么堆模型不一定管用——关键是所有模型一起错的概率。67个模型测下来,数学题上这个比例5.2%,代码题7.9%,比你想象的高。别盲目加模型了,先看看共失败率。

AI 摘要

本研究分析了多模型LLM系统(路由、投票、级联、融合和混合智能体)的增益上限,发现任何策略的输出为单一模型答案时,准确率不能超过1减去所有模型在同一查询上都出错的比率beta。在67个来自21个提供商的模型上,开放式数学任务中beta为0.052,是高斯copula预测值0.023的约2.5倍(90%CI 1.7-3.4,k=17)。在代码执行任务中beta为0.079,GPQA-Diamond自由回答形式下beta升至0.127,且五名评审员的kappa为0.73-0.92。结论是增益来自模型在不同问题上犯错,而非增加模型数量。

AI 翻译 · 中文

本研究分析了多模型LLM系统(路由、投票、级联、融合和混合智能体)的增益上限,发现任何策略的输出为单一模型答案时,准确率不能超过1减去所有模型在同一查询上都出错的比率beta。在67个来自21个提供商的模型上,开放式数学任务中beta为0.052,是高斯copula预测值0.023的约2.5倍(90%CI 1.7-3.4,k=17)。在代码执行任务中beta为0.079,GPQA-Diamond自由回答形式下beta升至0.127,且五名评审员的kappa为0.73-0.92。结论是增益来自模型在不同问题上犯错,而非增加模型数量。

arXiv cs.LGMulti-model LLM systems such as routing, voting, cascades, fusion, and mixture-of-agents are used to beat single-model accuracy. We show that their gain is capped by a quantity the field rarely reports. For any policy wh