论文精选

KINA:899题跨学科LLM知识基准,Gemini-3.1-Pro-Preview以53.17%领先

Knowledge Index of Noah's Ark

精选理由

KINA 解决了 LLM 知识评估中学科代表性不足和排名不稳定的痛点,做模型评测或研究 LLM 知识边界的团队可以直接用这个基准来更可靠地对比模型,建议点开看看具体的设计和排名细节。

AI 摘要

针对现有LLM知识基准存在的三个问题(学科代表性不足、标注激励不当、排名不稳定),研究者提出了KINA基准,包含899道题目,覆盖261个细粒度学科。该基准通过贪心近似算法确保学科代表性,并设计了锦标赛式奖励机制以提升标注质量。在13个实验室的42个模型评估中,Gemini-3.1-Pro-Preview以53.17%的准确率领先,Claude-Opus-4.6和GPT-5.4紧随其后,整体排名呈现分层结构,远未达到饱和。工具增强平均提升5.17个百分点,但模型间差异显著。该基准还提供了自举排名稳定性统计,避免对相邻排名的过度解读。

AI 翻译 · 中文

针对现有LLM知识基准存在的三个问题(学科代表性不足、标注激励不当、排名不稳定),研究者提出了KINA基准,包含899道题目,覆盖261个细粒度学科。该基准通过贪心近似算法确保学科代表性,并设计了锦标赛式奖励机制以提升标注质量。在13个实验室的42个模型评估中,Gemini-3.1-Pro-Preview以53.17%的准确率领先,Claude-Opus-4.6和GPT-5.4紧随其后,整体排名呈现分层结构,远未达到饱和。工具增强平均提升5.17个百分点,但模型间差异显著。该基准还提供了自举排名稳定性统计,避免对相邻排名的过度解读。

arXiv cs.AIKnowledge benchmarks for LLMs face three issues: scaling-driven designs that do not operationalize disciplinary representativeness; flat-payment annotation that permits lazy consensus; and unaudited ranking instability u