精选理由
当大家都在卷参数时,AIIQ.org 用IQ和EQ帮你快速判断哪个模型更聪明、更划算——做模型选型或成本优化的开发者,值得点开看看这个新工具。
AIIQ.org 刚刚上线,用12个硬核基准数据将流行大模型分为抽象、数学、编程、学术四个维度,智能估算IQ和EQ分数,并制作了IQ vs 成本、IQ vs EQ、3D性价比对比图。EQ部分采用EQ-Bench和Arena Elo加权计算,对Anthropic模型做了200分惩罚。该网站不再简单比拼参数或基准分数,而是用人类智力标准衡量AI,帮助开发者更聪明地评估和选择模型。
AI 翻译 · 中文
AIIQ.org 刚刚上线,用12个硬核基准数据将流行大模型分为抽象、数学、编程、学术四个维度,智能估算IQ和EQ分数,并制作了IQ vs 成本、IQ vs EQ、3D性价比对比图。EQ部分采用EQ-Bench和Arena Elo加权计算,对Anthropic模型做了200分惩罚。该网站不再简单比拼参数或基准分数,而是用人类智力标准衡量AI,帮助开发者更聪明地评估和选择模型。
一起来看看大模型的IQ和EQ排名😂 大家还在疯狂卷参数、卷基准分数的时候,有人直接给AI模型打起了IQ分。 AIIQ. org 刚刚上线,把流行大模型全部拉出来,用真实基准数据智能估算IQ和EQ,还做了IQ vs 成本、IQ vs EQ、3D性价比对比图,清晰到离谱。 它把12个硬核基准分成抽象、数学、编程、学术四个维度,保守填补缺失数据,最后给出标准正态分布上的IQ分数。 EQ也用EQ-Bench和Arena Elo加权计算,甚至对…