跨67个前沿模型的组合LLM：共失败上限限制路由、投票与MoA增益

精选理由

这篇论文告诉你为什么堆模型不一定管用——关键是所有模型一起错的概率。67个模型测下来，数学题上这个比例5.2%，代码题7.9%，比你想象的高。别盲目加模型了，先看看共失败率。

AI 摘要

本研究分析了多模型LLM系统（路由、投票、级联、融合和混合智能体）的增益上限，发现任何策略的输出为单一模型答案时，准确率不能超过1减去所有模型在同一查询上都出错的比率beta。在67个来自21个提供商的模型上，开放式数学任务中beta为0.052，是高斯copula预测值0.023的约2.5倍（90%CI 1.7-3.4，k=17）。在代码执行任务中beta为0.079，GPQA-Diamond自由回答形式下beta升至0.127，且五名评审员的kappa为0.73-0.92。结论是增益来自模型在不同问题上犯错，而非增加模型数量。

AI 翻译 · 中文

arXiv cs.LGMulti-model LLM systems such as routing, voting, cascades, fusion, and mixture-of-agents are used to beat single-model accuracy. We show that their gain is capped by a quantity the field rarely reports. For any policy wh…

阅读原文