KINA：899题跨学科LLM知识基准，Gemini-3.1-Pro-Preview以53.17%领先

精选理由

KINA 解决了 LLM 知识评估中学科代表性不足和排名不稳定的痛点，做模型评测或研究 LLM 知识边界的团队可以直接用这个基准来更可靠地对比模型，建议点开看看具体的设计和排名细节。

AI 摘要

针对现有LLM知识基准存在的三个问题（学科代表性不足、标注激励不当、排名不稳定），研究者提出了KINA基准，包含899道题目，覆盖261个细粒度学科。该基准通过贪心近似算法确保学科代表性，并设计了锦标赛式奖励机制以提升标注质量。在13个实验室的42个模型评估中，Gemini-3.1-Pro-Preview以53.17%的准确率领先，Claude-Opus-4.6和GPT-5.4紧随其后，整体排名呈现分层结构，远未达到饱和。工具增强平均提升5.17个百分点，但模型间差异显著。该基准还提供了自举排名稳定性统计，避免对相邻排名的过度解读。

AI 翻译 · 中文

arXiv cs.AIKnowledge benchmarks for LLMs face three issues: scaling-driven designs that do not operationalize disciplinary representativeness; flat-payment annotation that permits lazy consensus; and unaudited ranking instability u…

阅读原文