6月8日
6月5日
6月4日
10:37
10:37arXiv cs.AI@Sheng Jin, Minghao Liu, Yunze Xiao, Zeqi Zhou, Heli Qi, Yifan Yao, Meishu Song, Kaijing Ma, Xuan Zhang, Sicong Jiang, Yizhe Li, Ningshan Ma, Jie Wei, Ziniu Li, Minglai Yang, Bangya Liu, Yiming Liang, Xiao Fang, Qingcheng Zeng, Jiarui Liu, Rui Yang, Shen Yan, Wenhao Huang, Jiaheng Liu, Zihan Wang, Weihao Xuan, Ge Zhang
精选
针对现有LLM知识基准存在的三个问题(学科代表性不足、标注激励不当、排名不稳定),研究者提出了KINA基准,包含899道题目,覆盖261个细粒度学科。该基准通过贪心近似算法确保学科代表性,并设计了锦标赛式奖励机制以提升标注质量。在13个实验室的42个模型评估中,Gemini-3.1-Pro-Preview以53.17%的准确率领先,Claude-Opus-4.6和GPT-5.4紧随其后,整体排名呈现分层结构,远未达到饱和。工具增强平均提升5.17个百分点,但模型间差异显著。该基准还提供了自举排名稳定性统计,避免对相邻排名的过度解读。
推荐理由:KINA 解决了 LLM 知识评估中学科代表性不足和排名不稳定的痛点,做模型评测或研究 LLM 知识边界的团队可以直接用这个基准来更可靠地对比模型,建议点开看看具体的设计和排名细节。
6月3日
01:21
01:21Suhail@Suhail
一位用户惊叹于 LLM 带来的学习速度与广度,认为它让任何人都能随时学习自己领域的前沿知识。这种能力既可以让人贬低智力或沮丧,也可以让人成为在小房间里就能掌握前沿的普通人。自学从未如此普及和高效。
推荐理由:LLM 正在重塑自学方式,对任何想快速学习新知识或深入领域前沿的人来说,这条推文点出了关键心态转变——是选择沮丧还是利用工具,值得每位学习者思考。
6月2日
6月1日
5月31日
5月29日