6月4日
10:37
10:37arXiv cs.AI@Sheng Jin, Minghao Liu, Yunze Xiao, Zeqi Zhou, Heli Qi, Yifan Yao, Meishu Song, Kaijing Ma, Xuan Zhang, Sicong Jiang, Yizhe Li, Ningshan Ma, Jie Wei, Ziniu Li, Minglai Yang, Bangya Liu, Yiming Liang, Xiao Fang, Qingcheng Zeng, Jiarui Liu, Rui Yang, Shen Yan, Wenhao Huang, Jiaheng Liu, Zihan Wang, Weihao Xuan, Ge Zhang
精选
针对现有LLM知识基准存在的三个问题(学科代表性不足、标注激励不当、排名不稳定),研究者提出了KINA基准,包含899道题目,覆盖261个细粒度学科。该基准通过贪心近似算法确保学科代表性,并设计了锦标赛式奖励机制以提升标注质量。在13个实验室的42个模型评估中,Gemini-3.1-Pro-Preview以53.17%的准确率领先,Claude-Opus-4.6和GPT-5.4紧随其后,整体排名呈现分层结构,远未达到饱和。工具增强平均提升5.17个百分点,但模型间差异显著。该基准还提供了自举排名稳定性统计,避免对相邻排名的过度解读。
推荐理由:KINA 解决了 LLM 知识评估中学科代表性不足和排名不稳定的痛点,做模型评测或研究 LLM 知识边界的团队可以直接用这个基准来更可靠地对比模型,建议点开看看具体的设计和排名细节。